マイクロソフト、AIが人より正確に写真を説明 従来よりも性能が2倍に

このエントリーをはてなブックマークに追加

米マイクロソフトは現地時間10月14日、公式ブログにおいて、同社の研究者が画像のキャプション(見出しや説明文)を作成できる人工知能(AI)システムを構築したと明らかにした。同システムが生成するキャプションは、人間が書く解説よりも正確なことが多いという。

同システムは、Azure AIの一部であるAzure Cognitive ServicesのComputer Visionサービスを通じて利用できる。本機能により、開発者は自社サービスのアクセシビリティを向上させられるとする。

2020年後半にはWordやPowerPointにも実装

シントン州レドモンドのマイクロソフト本社で、テクニカルフェロー 兼 Azure AI Cognitive Services 担当最高技術責任者を務めるゼドン・フアン氏は「画像キャプションは、コンピュータビジョンの中核機能のひとつで、幅広いサービスに適用できます」と話す。

本機能はSeeing AIとの連携も可能で、2020年後半にはWindowsおよびMac版のMicrosoft Wordおよび Outlook、Windows、Mac、ウェブ版のPowerPointに実装する予定とのこと。なお、検索結果として表示される写真やプレゼンテーション内の画像など、さまざまな画像が対象になる。

なお、マイクロソフトのレドモンド本社でAIプラットフォームグループのソフトウェアエンジニアリングマネージャーを務めるサーキブ・シャイフ氏によると、画像キャプションを使ってウェブページやドキュメント内で写真の解説を生成する「alt text(代替テキスト)」という手法は、とくに目の不自由な人や弱視の人にとって重要とのこと。

人間の領域を超えるベンチマークを達成した

レドモンドのマイクロソフトリサーチラボにてプリンシパルリサーチマネージャーを務めるリウアン・ワン氏は、画像キャプションに対するAI活用について、「実際に何が起こっているのか理解する必要がありますし、モノと行動の関係を把握しなければなりません。そのうえで、自然言語の文章として要約し、記述する必要があります」と説明する。

リウアン・ワン氏が率いた研究チームでは、AIシステムの訓練に使われたデータセットには含まれていない画像内のオブジェクトに対し、どれだけうまくキャプションを生成できるかを評価するベンチマークを実施した。その結果、大規模オブジェクトキャプション技術「nocaps」において、人間の領域を超えるベンチマークを達成したという。

画像キャプションシステムは通常、画像と画像を解説する文章を組み合わせたデータセットで訓練される。このような状況を受けて、ウアン・ワン氏は「nocapsでは、訓練データでは見たことがない新たなオブジェクトをどう記述できるかという点が課題です」と訴えている。

そこで、マイクロソフトのチームはこのような課題に対して、豊富な画像データセットと単語のタグを組み合わせ、大規模なAIモデルを事前に訓練した。それぞれのタグに、画像内の特定のオブジェクトがマッピングされているものだ。

完全なキャプションではなく、単語のタグによる画像データセットを使うことで、作成がより効率的に進み、リウアン・ワン氏のチームは多くのデータをモデルにフィードできたという。このアプローチにより、同チームではビジュアルボキャブラリー(視覚語彙)をモデルに植え付けられた。

ビジュアルボキャブラリーを事前訓練するアプローチは、子どもが読書できるように準備する際、まず絵本を使って個々の単語を画像と関連付けるといった方法と似ている、とリウアン・ワン氏は語る。たとえば、リンゴの絵の下に「リンゴ」と書いてあったり、ネコの絵の下に「ネコ」と書かいてあったりする本を使うような方法である。

事前訓練されたモデルは、その後キャプションのついた画像のデータセットを使い、キャプション付けに向けて微調整される。本段階の訓練で、モデルは文章の構成方法を学ぶ。新しいオブジェクトを含む画像が提示されると、AIシステムはビジュアルボキャブラリーを駆使して正確なキャプションを生成できる。

2015年以来のAIシステムより2倍高い性能を示した

研究論文で提示された結果によると、本AIシステムをnocapsで評価したところ、同システムが作成したキャプションは、同じ画像について人間が記述したキャプションよりも、より的確に解説しており、より正確と明らかになった。

また、別の業界ベンチマークでも比較したところ、本AIシステムは2015年以来マイクロソフトの製品やサービスで使われてきた画像キャプションモデルよりも、2倍高い性能を示したという。

フアン氏は「この5年間に、5つの主要な分野で人間の領域に到達しました。音声認識、機械翻訳、会話型の質疑応答、機械解読、そして2020年コロナ禍にもかかわらず到達した画像キャプションの分野です」と言及。画像キャプションで人間のレベルを達成したが、引き続き、マイクロソフトの認知AIシステム全体で人間の領域に到達するという目標は継続させると話している。

>>公式ブログ(該当記事)

「高精度過ぎる文章を作る」Microsoftが言語モデルGPT-3の独占的ライセンスを取得

近年、マイクロソフトによるAI関連の取り組みは活性化している。

最近でも、マイクロソフトは9月22日、OpenAIとの継続的なパートナーシップを拡大し、文章自動生成AI「GTP-3」の独占的ライセンスを取得したことを公式ブログで明らかにした。

「GPT-3」はSpaceXなどで有名なイーロン・マスク氏が共同会長を務める、米国の非営利研究団体「OpenAI」が開発した言語モデルである。あまりの高精度から「人にしかできないこと」が、機械にもできるようになるのではないかという期待が高まる。

2020年7月に技術者のマヌエル・アラオス氏が投稿したGPT-3に関するブログは、実は人間ではなくGPT-3が書いたものであることが話題を呼んだ。

さらに、カリフォルニア大学生のリアム・ポール氏はGPT-3を活用したブログサイトを立ち上げ、2週間で閲覧者は2万6000人、購読者数は60人を達成した。このなかで、「GPT-3を使っているのでは?」と見破った人はたったの1名だったという。