コンテンツにスキップ

動画を使った深層学習

ミシガン大学の公開講義にとても良いクラスがあったので翻訳andまとめておきます。

タスク

動画は画像を時系列データとした(T x 3 x H x W)のテンサーで扱う。(3 x T x H x W)の時もある。

画像系のタスクは主に

Classification (whole image)
Semantic Segmentation (Pixelwise Classification)
Object Detection (Find bounding box)
Instance Segmentation (Predict shape)

があり、動画データはこれを連続的に行う。

1. Video Classification

動画をクラス分類するタスク、画像と違い物体が何か当てる以外にも一連の動きから人間の動作を分類したりする。

動画の全般的な問題としてデータが大きすぎる。無圧縮だと1エントリー1 byteとしてHD動画１分で10GBくらい。なのでFPSと解像度を下げた動画の一部分だけを学習させる。モデルの評価は動画の一部をオーバーサンプリングして平均精度を取ることで動画全体への精度がわかる。

1-1. Single Frame CNN

各フレームを別々の画像として独立したCNNで分類する手法。長めの動画を学習させて正答率をフレーム数で平均した精度を向上させていく。画像同士の関係を考慮しないので一見するとダメなモデルっぽいが実は普通に実用レベルで性能が良いらしい。動画分類をする時はこれをベースにやるといい。