OCRから次の段階へ。Facebookが動画・画像内の不適切コンテンツを検出する機械学習システム「Rosetta」を発表

このエントリーをはてなブックマークに追加

世界中で20億人以上ものユーザー数を誇るFacebookは、ヘイトスピーチやフェイクニュースといった不適切なコンテンツのシェアを防ぐためにもコンテンツの精査が必要とされていましたが、そのコンテンツ精査をおこなう大規模機械学習システム「Rosetta」を発表しました。

従来のOCRとは違うテキストと画像から文脈を理解する「Rosetta」

日々、膨大な数の動画や写真が多種多様な形式で行き交うFacebookやInstagram。

テキストはさまざまな言語で動画・画像内に散りばめられており、人間の目でないとなかなか高い精度でコンテンツの精査をおこなうことが難しかったです。

今までも、OCR(光学的文字認識)を用い、動画・画像内からテキストの抽出はおこなわれていましたが、文字は認識できる一方、文脈までは認識できない従来のOCRの技術では、コンテンツ精査には不十分でした。

OCR(光学的文字認識)
スキャナやデジタルカメラで読み取った手書きや印刷された文字を、コンピューターが利用できるテキストデータ変換する技術。

そのOCRができない部分を可能にするために生まれたのが、大規模機械学習システム「Rosetta」です。

Rosettaによってリアルタイムで日々膨大な量が拡散される動画・画像内のテキストの抽出。そして、独自のモデルを使用することで、画像とテキストから文脈を理解することができます。

動画・画像内のテキストからだけでは意味が読み取れないこともしばしばあります。そこを写真の内容も加味して、テキストの文脈を理解しているという点はすごいですね。

Facebookではその技術を利用して、

  • 写真検索の関連性の向上
  • スクリーンの音声読み上げの向上
  • 不適切なコンテンツの発見
  • よりパーソナライズされたコンテンツを表示するためのニューズフィードの写真の分類

の役割を担っており、すでにFacebookとInstagramの両方で導入しています。

実際に、FacebookとInstagramの10億をこえる動画・画像からテキスト抽出をおこなっているそう。この膨大な画像情報に対応することができることこそ”大規模”機械学習システムと言えるのでしょう。

Facebookの最新のAI技術を盛り込んだRosetta

Rosettaの学習データには2種類のデータを用いており、ひとつ目はテキストを含む画像に人間がテキストとテキストの位置をアノテーションしたもの。ふたつ目はテキストを含まない画像に対し生成エンジンをもとに自動的に生成したテキストをつけたものです。

この2種類のデータを用いているのは、今後対応する言語を増やしていくことも考える上で、膨大な量のデータをアノテーションするのが大変な作業であるからだそう。確かに、新たに学習させようとするたびに、アノテーションをおこない学習データを作成するとなると相当な時間と労力がかかります。

この生成エンジンはSynthTextのアプローチからインスピレーションを受けているそうです。

データの作成を実践レベルで自動化しているのには驚きですね。モデルに関しても独自のテキスト抽出モデルを用いており、検知と認識のふたつのステップに分けて構築しているそうです。

Rosettaによるコンテンツ精査の可能性

最近では、「ヘイトスピーチを防ぐためにミャンマーの複数の軍上層部のアカウントや軍関連ページを削除」、少し前でいうと「Facebookでの偽情報の拡散がアメリカ大統領選に影響を与えたのではないか」など、Facebookの利用者が多いからこそ、コンテンツの内容が問題となることは多いです。

膨大な情報が拡散されているFacebookでは、すべてを人がおこなうことはほぼ不可能です。Rosettaはそのような問題点を解決するひとつの解決策となりそうです。

また、Rosettaは英語とラテンアルファベットをトレーニングデータとして用いており、多言語対応が必要となっていたり、さまざまな形式の写真に対応する必要があったりと、研究はいまも続いているそう。今後もRosettaによってどのようなサービスが改善されるか注目です。