AIの権威が語るコンピュータービジョンが社会実装される未来

このエントリーをはてなブックマークに追加

第三次AIブームの火付け役と言える出来事の1つである、コンピュータビジョンの飛躍的精度向上。この技術的ブレークスルーは2012年、当時、トロント大学の教授だったジェフリー・ヒントン氏を中心としたチームが、ImageNetで圧倒的な画像認識精度で優勝したところまで遡る。

それ以前より、AI・コンピュータービジョン分野で活躍を続けていた研究者の1人が台湾国立清華大学准教授のミン・スン氏だ。

現在、Fortune誌の「AI革命を牽引する50社」や、CBInsightsの「世界で最も有望なAI企業100社」に選出されているAI企業、Appier Inc.にて、Chief AI Scientistを務めるミン・スン氏。

技術的ブレークスルー以前からAIの研究に携わり続ける権威が語る、コンピュータビジョンが社会実装される未来とは、いったいどのような姿なのだろうか。

過去の変遷を踏まえ、コンピュータービジョンの社会実装にはどのような障壁が存在しているのか。障壁を乗り越えた先で、どのような未来の姿が形成されていくのか。ミン・スン氏の意見を聞いた。

半世紀以上の研究の末、迎えたブレークスルー

――まずは、コンピュータービジョン分野の変遷について教えてください。

――ミン・スン
「コンピュータービジョンが日の目を浴びるまで、長い時間がかかりました。2012年、ジェフリー・ヒントン氏率いるトロント大学の開発したAlexNetがImageNetで優勝し、コンピュータビジョンがブレークスルーを迎えたことをご存知のかたは多いと思います。

しかし、科学技術分野としてのコンピュータービジョンは約70年の歴史があります。すでに1960年代には、コンピュータビジョン分野の原型が生まれていました。

さらに、2012年から注目を集めているディープラーニングも、コンセプト自体は数十年前から存在していたんです」

1960年代後半、日本国内でも郵便番号の自動認識が実用化されていることから、コンピュータービジョンが長い歴史を持っていることがわかる。

ディープラーニング自体も1979年には福島邦彦氏によって原型が発表されている。

しかし、物体や、人の顔などを高い精度で認識できるようになったのは2012年以降だ。2012年、いったい何が起きたのだろうか。

――ディープラーニング技術以外の要因で、何がコンピュータービジョンのブレークスルーに繋がったのでしょうか?

――ミン・スン
デジタルカメラの普及と画質の向上、さらにGPUなどのコンピューティングリソースの進歩による影響が大きいですね。

ディープラーニングを実際に利用するには、大量のデータが必要ですし、そのデータを処理するための高度な演算能力が必要となります。ディープラーニングという根幹技術に加え、その技術を支える要素が揃ったタイミングが2012年だと認識しています」

現在のコンピュータービジョンは、特定条件下では人よりも高い認識精度を叩き出している。

スマートフォンの顔認証や自動運転車への搭載、パンの自動認識レジなど、コンピュータービジョンの商用化が進む産業界とは対照的に、公的な場における防犯カメラへのコンピュータビジョンの導入といった社会実装に向けた足取りは重い。

社会実装における障壁

―― AIが人を超える画像認識精度に到達した今でも、コンピュータビジョンの社会実装は試験導入段階にあります。何がコンピュータービジョンの社会実装を阻む障壁となっているのでしょうか?

――ミン・スン
「社会実装への障壁は、定量的なものと定性的なものがあります。

定量的な実装障壁でいうと、通信にかかる制限や費用などが挙げられますが、コンピュータービジョンの特性をもっとも必要としているのは、人口減少や高齢化に悩まされる地域です。

そのような地域は人口が少ないうえ、経済規模も都市部に劣る傾向にあるため、コンピュータービジョンの導入・運用費用がボトルネックになりがちです。

また、山岳部や過疎地域では、通信環境も整っていないことが多いため、連続的に大量のデータを送り続けるのが難しいケースもあります」

たしかに、現行の通信規格では、無数のデバイスから送られてくる動画や画像を捌ききれず、通信に遅延が発生してしまう可能性が大きい。

また、少ないデバイスで広範囲をカバーしようとすると、最新の撮影デバイスのみが対応している4Kや8Kといった高解像度の画像が必要となるため、コストやデータのサイズが一気に膨らむ。

個人利用や商業施設の場合、限定的な範囲での送受信であるため、それほど高度な通信レベルは必要とされていないが、地域や都市全体をコンピュータービジョンで網羅するにはいまだに不安が残る。

――ミン・スン
「定性的な実装障壁は、プライバシーに対する考え方AIのブラックボックス問題などがあります。

こういった、人の考え方に関わる障壁を取り払うには、カメラで取得したデータの取り扱いや、AIが何を根拠に答えを出しているのか説明していく必要があります」

AI、特に画像や動画を取り扱うコンピュータービジョン分野では、プライバシーに関する懸念の声があがっている。

また、AIが結論を導き出すまでのロジックがブラックボックス化されていると考える人たちは一定数存在している。そのため、日本政府の人間中心のAI社会原則案にも表れているように、AIが出した結論に対する説明責任を示すことが求められている。

こうした定性的・定量的な障壁が取り払われたとき、社会はどのように変わっていくのだろうか?

コンピュータビジョンの普及で形成される未来

――ミン・スン
「治安の良い国に住んでいると、意識する人は少ないかもしれませんが、世界規模でみると、テロや凶悪犯罪の脅威は高まっています。

コンピュータービジョンはテロを計画段階で防ぐことに役立つはずです。防犯カメラは、犯罪を取り締まるためではなく、抑止するための社会基盤として働くでしょう」

――ミン・スン
「また、医療・福祉のような公共性の高い分野は、コンピュータービジョンとの親和性が高いです。レントゲンやMRI画像に加え、患部の画像など、さまざまな画像データが入手できる病院はデータの宝庫といっても過言ではありません。

一部では、コンピュータービジョンを用いた診断が試験的に始まっており、医師による診断と同レベル以上の精度で特定の病気を検知できるものが生まれています。

説明可能なAIにより、社会におけるAIに対するバイアスが払拭されれば、医療分野は一気に変わるでしょう。

これらの未来はありえない話ではありません。近い将来、実現される未来です」