東芝、画像に対する質問に世界最高精度で回答できるAI開発「まずは技術自体の精度を向上する」

このエントリーをはてなブックマークに追加

株式会社東芝は9月15日、汎用性が高く、画像に対する質問に世界最高精度で回答できる質問応答AI(人工知能)を開発したと発表。公開データセット(※1)を用いた実験では、画像とテキストの膨大なデータで事前に調整していない(事前学習なし)場合は66.25%、事前に調整した(事前学習あり)場合は74.57%と、それぞれ世界最高精度のAI回答正解率を達成したという(※2)。

本AIは画像に映る人物や物だけではなく背景を含めて色、形状、状態などの情報を用いて質問しても回答が得られる。たとえば、芝生の上に犬がいる画像について「芝生の上には何がある?」という質問には、従来は「人間」と誤った解答をしていたものの、本AIでは正しく「犬」と回答できる。

東芝が実施した性能評価では、従来手法の回答正解率は事前学習なしの場合が65.88%、事前学習ありの場合は74.00%。本AIの回答正解率は事前学習なしの場合が66.25%、事前学習ありの場合は74.57%と、画像に対する質問回答の世界最高精度を達成したとしている。

本AIにより、従来は困難だった人物や物の場所や状況を反映した質問応答が可能になる。応用場面としては生産現場の安全モニタリングが挙げられる。たとえば、潜在的な危険「ヒヤリハット」要因の検知に適用することで、「人物が黒いマットの上にいるか」など、現場ごとのルールにあわせて作業員が所定の場所(黒い絶縁マットなど)に立っているかどうかを確認できる。画像と質問を用意するだけで使用目的にあわせた作り込みは不要だ。

株式会社東芝 研究開発センター 知能化システム研究所 メディアAIラボラトリー 研究主務 中洲俊信(なかす としあき)氏は、今後の展望について「柔軟な安全モニタリングAIの実現に向けて、まずはシステム開発と技術自体の精度を向上することを考えている」とコメント。

本AIは放送コンテンツや監視カメラ映像からの特定シーン検索などにも応用できる。中洲俊信氏は「質問をどんどん増やしていくことで、回答を絞り込める。放送コンテンツだけではなく、監視カメラからのシーン検索、コンシューマ(消費者)向けの画像のなかから所望の画像を検索するなどの活用もできると考えている」と述べた。ただし、コンシューマ向けの展開は東芝のビジネス的な観点で判断し、社外からの要望には別途相談するとしている。

(※1)VQA-v2 データセット/Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C.L., Parikh, D.:VQA: Visual Question Answering. In: ICCV(2015)

(※2)事前学習あり/なしの各モデルに対し、論文投稿時点で世界最高精度を確認したという。