機械学習による、画像解析・生成にデータ解析からのアシスタント発話生成…と。ここ最近ノリノリなGoogle先生が、またやってくれました。
動画内に何が映っているのか?を自動判別する新APIの公開です。
リリース: GC Bigdata & ML Blog
- 動画内部の情報を自動解析
- 映っている対象物やシーン、行動などにタグ付けしてテキスト情報化
- さらにシーンの切り替わりタイミングの取得もOK
という、『え?そんなん技術的にもう可能なんだっけ?』 レベルのAPIを、なんと無償で開放 ※。『Video Intelligence API』としてリリースしたらしいです。
とりあえず既にデモが使えるらしいのでやってみる
なんと既にデモが使えるそうなので、ひとまず Video Intelligence API へ移動後、Googleアカウントでログイン。サンプルとして用意されている動画から対象動画を選んでみます。
出力は『動画全体のラベル(lavels)』と『各シーン毎のラベル(Shots)』が以下のようなJSONで取得可能なようです。
てか精度たっっっか!!
ちなみにAPIの仕様について
認識ラベルごとにデータ出力 ⇒ 全体(VIDEO_LEVEL)での信頼度と、シーンごと(SHOT_LEVEL)の信頼度が認識された時間情報と一緒に格納って感じみたいです。
デフォ状態だとVIDEO_LABEL、SHOT_LEVELがごちゃまぜで1つのJSONになっちゃってるみたいなので、リクエストのときに “features” を “LABEL_DETECTION” オンリーにすればいい感じに返ってくる様子。一度 Annotate のほうでリクエストを発行 ⇒ その結果のID(asia-east1.1004539334628xxxxxxxxとかって文字列部分)をもとに、Operationのほうで進行状況と結果を取得・確認する形っぽいですね。
で、これってつまり何やってんの?(仮説)
実は、公式からのアナウンスではまだ『TensorFlowとかつかって色々やってるよー』くらいの事しか書いてないんでよくわからないんですが、要するに画像解析系エンジンがやっている手法(CNN)と近いフローなんじゃないか?なんて海外ギーク連中の間では噂されています。
- シーンを切り出して、めっちゃ小さくしてドット絵みたいにする
- ドット集合単位で『○○が写ってればこんな感じははず』という学習データ照合
- 学習済みデータから最も適合率の高いものをタグとして紐付けてJSONで返す
で、これを動画でやる。。。と。
つまり、上記フローを自動判別したシーン切り替えのタイミング(画面内の大きな要素変更を自動検出してるらしい)ごとに超速連続解析してる…とか、どーやらそんな感じらしいです。
え。なにそれすごい力技。
まぁ真偽のほどはよく分かってないですし、何かとんでもな技術が使われた…のかも知れないですが。
力技にせよ新しい技術だったにせよ、これまで画像解析系フィールドにおいてダークマター扱いだった動画をここまで解析するとは…やっぱりGoogle先生すごい。
マーケットに与える影響はどんなもんだろう?
ほんっっっとに色々あると思うんですが、例えばちょっと考えつくだけでも
- 動画投稿系サービスの検索効率化
- 投稿された動画内にNGな内容がないか?などの監視系オペレーション自動化
- 動画広告の本格的な解析とマーケティング活用
- ユーザー行動に合わせた超パーソナライズ動画配信
とかとか。この辺でしょうか?
ともあれ、これまで『やれそうだけど、現実的には無理じゃね?』扱いだった動画内情報解析が、唐突に無料になってしまったわけです。
これまで誰も考えて来なかった新しいアプローチが、ここから生まれていくのかも…?なんてわくわくしちゃいますね。
Google先生ありがとうー!