「AIによる動画要約研究」に激震。今までの自動動画要約技術はランダム抽出と大差なかった?

このエントリーをはてなブックマークに追加

画像認識におけるトップカンファレンス「CVPR 2019」で、AIでの自動動画要約の常識を根本的に覆す論文が発表された。最先端の動画要約手法が、ランダムで作成された動画要約と同等レベルでの要約しか作成できていないことを示したものだ。

本稿では、7月13日に開催された「CCSE 2019」でのサイバーエージェントAI Labの大谷まゆ氏による講演「ディープラーニング時代の性能評価」の講演内容、および同氏のCVPR 2019に採択された論文「Rethinking The Evaluation of Video Summaries」の内容をまとめた。

合わせて、動画要約技術で用いられてきた手法の簡単な説明と、「ランダム抽出での要約結果がAIと同等の結果を示した」とはどういうことか、解説する。

近年の動画要約手法とそのデータセット

そもそも動画要約とは、もとの映像のなかで根幹をなす内容を捉えつつ、映像の長さを短くすることを示す。

以前Ledge.aiの記事でも取り上げた、任意の動画から漫画のコマ割りを生成するAI「Comixify」の動画から重要なフレームを抽出する箇所で使用されている。

関連記事:動画から漫画を自動で生成する「Comixify」を使ってみた

この動画要約を自動で行うためさまざまな研究がなされてきたが、基本的には以下の3段階で構成されている。

  1. 重要度の推定
  2. シーンの分割
  3. 重要度を考慮したシーンの選択による要約の作成

まず1では、動画に対して重要度の計算を行う。ここでの重要度とは、3のシーンの選択の際に使用される値。重要度が高いほどそのフレームが動画のなかで要約に組み込まれやすくなることを示している。

今回の場合では、約2秒おきのペースで重要度を出力しているが、フレームごとに算出する場合もあれば、任意のタイミングで出力する場合もある。

2においては、KTS(Kernel Temporal Segmentation)と呼ばれる手法がよく用いられる。映像が大きく切り替わった場面を検出し、区切り目とする手法だ。映像に絵的な変化が少ない場合には、シーンは長くなる傾向にある。

そして3では、30秒など決められた時間で、重要度の総和が最大になるように複数のシーンを選び取り要約を作成する。

データセットとその評価指標

近年、動画要約で用いられるデータセットはSumMeとTVSumの2つが多い。どちらもYouTubeの動画を使用したものである。

  • SumMe
    動画数:25本
    アノテーション方法:ひとつの動画あたり15〜18人が実際に要約を作成

  • TVSum
    動画数:50本
    アノテーション方法:ひとつの動画あたり2秒ほどの期間ごとに重要度を付与

自動要約がどの程度もっともらしいか判断する際は、これらのデータセット内の動画要約とどれだけマッチしているかをF値によって評価する。

ランダム抽出された要約がAIと大差ないとはどういうことか

ここからは論文の主張である、「ランダム抽出された要約がAIと大差ない」という部分について詳しく述べていきたい。

そもそも論文の一番の主張は、上述したシーンの選択の際に使用される重要度がまったく役に立っていないという点だ。近年では重要度の推定に教師なしでの強化学習や、RNNベースの教師あり学習など、いわゆるディープラーニングの手法が用いられており、なかでも現在主流の動画要約手法は上述した3段階の手順を踏んでいる。

論文では、ランダムに作成した動画要約と、AIによって作成した動画要約を比較したうえで「大差ない」という事実を示している。

ランダムに作成した動画要約とは、具体的には以下のアクションを行っている。

  • 重要度のランダム化
    「1.重要度の推定」において、0~1の範囲のランダムな値を用いる

  • シーン分割のランダム化
    「2.シーンの分割」において、動画をランダムに区切る

下の図は、SumMeデータセットにおいて、AIによって作成された動画要約と、ランダム化により作成された動画要約を評価したもの。縦軸はF値を表し、この値が大きいほど良い評価指標としている。

この図では、それぞれの要素で以下を表している。

重要度についての比較

  • Random(薄い水色):重要度に0~1の範囲のランダムな値を使用
  • dppLSTM(紫色):重要度をdppLSTMを用いて計算

シーンの分割に置ける比較

  • Uniform:シーンの分割を2秒に一度行う
  • One-peak:ポアソン分布を使用
  • Two-peak:2つのポアソン分布の混合分布を使用
  • KTS:映像の移り変わりを判断
  • Randomized-KTS:KTSによって判断されたシーンをランダムに並び替える

たとえば一番左のUniformにある薄い水色のバーは、重要度の計算をランダムに、シーンの分割は映像に関わらず2秒に1回行う処理をしていることを示す。

重要度をランダム化した場合である水色のバーと、重要度をdppLSTMを用いて計算した場合である紫のバーを見比べてほしい。重要度をランダム化した場合でもそうでない場合と同等あるいは、それ以上の性能が出てしまっていることがわかる。

このような事態に陥った理由は動画要約での一般的な解法である3. 重要度を考慮した解法に問題があったと考えられる。はじめに説明したように、3では30秒など決められた時間内で、重要度の総和が最大になるように複数のシーンを選び取り要約を作成するが、この段階において2.の段階で長いセグメントになってしまった場合に、選択されにくくなるからである。

たとえば、あるセグメントAが選択されるためには、長さの合計がA未満で重要度の和がA以上のセグメントBおよびCがない場合のみである。長いセグメントが選ばれにくい傾向になってしまっていたのだ。

提案された新たな評価指標

論文では、新たな評価指標として以下の2種類を使用したものが提案されている。従来の評価指標では、要約結果について評価していたが、今回提案された評価指標では、重要度に対して評価を行なう。

  • スピアーマンの相関係数
  • ケンドールの相関係数

この2つについて具体的な例を出しながら説明していきたい。

まず、14秒の動画にこの手法を用いて、以下の表のように教師データ、予測結果の重要度が与えられたとする。

スピアーマンの相関係数は、以下の式で表される。

x_iは教師データでの重要度の順位を表し、y_iは予測された重要度の順位を表す。2つの値に差がある場合、(x_i – y_i)^2の項の値が大きくなってしまうため、区間ごとに教師データと予測結果で順位のズレが小さい方が相関が大きくなるといえる。

ケンドールの相関係数は、以下の式で表される。

nは要素数を表し、KとLは以下のように求められる。

このようにして、r_kを計算し、順位相関係数を求めることができる。Kの値が大きいほど相関係数が高くなり、Lの値が大きいほど相関係数は小さくなる関係性があることが式からわかるだろう。

上述の2つの評価指標では、ランダムに重要度を作成した場合は相関係数が0になることが保証でき、重要度の順位を用いることで、これまでの評価指標よりも詳細な比較が可能になっている。

評価指標に対して根本的な理解を

今回の論文で扱っている動画要約のように、抽象度が高いタスクでは評価指標が正しく機能しているかについてしっかりと議論する必要がある。評価指標はその分野タスクの方向性に大きく左右するため、正しく定義されていないとまったく無意味なことが行われてしまう可能性がある。

また、評価指標を正しく解釈できていないと、ビジネス上で数値に騙されてしまったり、実運用で思ったような結果が出なかったりという状況が起こりうる。

すべての人がAIの仕組みについて理解した方が良いとまでは言わないが、評価指標の意味内容と、その評価指標が目的に沿っているかは深く理解する必要があるだろう。