画像認識とは|歴史・仕組み・最新事例まで徹底解説

画像認識
このエントリーをはてなブックマークに追加

スマホの顔認証や、生産工場での不良品自動検知システムなど、我々の生活に普及した画像認識の技術。ここ近年で急激に発展した印象を受けるが、実際はとても長い間研究されてきた分野である。

今回は改めて画像認識について、独自技術「人工脳SOINN」を開発するSOINN株式会社の長谷川修氏と一緒に仕組み、歴史やこれからの発展について解説していく。




長谷川 修 氏
元東京工業大学 工学院システム制御系 システム制御コース准教授。「工学研究は社会の役に立つために行うもの」との信念に基づき、2020年現在SOINN株式会社のCEOとして独自技術「人工脳SOINN」を研究開発している。

画像認識(Image Recognition)とは

画像認識とは、画像のなかに一体何が写っているのか、コンピューターや機械などが識別する技術。画像から色や形といった特徴を読み取り、その特徴をさまざまな学習機に入れて新たな画像を認識できるようにしたパターン認識技術のひとつ。

写真を検索にかける画像検索や、ディープラーニングとの併用によって複雑な特徴を捉えることが可能になり、猫や犬といった生物の画像を認識する技術など、現在さまざまな分野で活用が進んでいる。

たとえば人間の写真であれば、眉毛がふたつ、目がふたつ、鼻がひとつ、口がひとつあるという情報から顔を認識する。スマホやカメラの顔認識技術がまさに画像認識技術を応用したものである。

我々人間にとって物体を認識することは、成長する段階でごく自然に育まれていく。

Photo by Borna Bevanda on Unsplash

例として猫を挙げると、

  • 毛がふわふわしていて
  • 明るい・暗い場所によって瞳孔の形が変わる
  • ニャーと鳴く生き物

という生物は「猫である」と人間は経験から学習する。仮に体毛のない種類だとしても、ニャーと鳴くなどの雰囲気でこの生物は猫だと認識するだろう。

しかし、機械でこの認識を再現するとなると大変難しく、今まで多くの研究がなされてきた。そして近年、コンピューターやインターネットの普及でようやく精度が上がってきた。

画像認識の歴史

画像認識の研究自体はコンピューターが出てきた40年〜50年も前を起源としている。そのなかで長谷川氏が研究を通して見てきたのは、いかに人間を超えられないか思い知らされる歴史だったという。

――長谷川
「顔認識も10年くらい前はまだまだ研究段階。最近ようやく人間の顔を判断可能になり、犬や猫の顔も認識できるようになりました。

絵で描かれた犬や猫は人間の子供だと容易に認識できます。これは“わんわん”、これは“にゃんにゃん”というふうに理解できますよね。しかし、研究でやろうとするとこの認識がなかなかできなかったのです」

画像認識技術が一気に進んだ背景にはどのような理由があるのか。

――長谷川
もとを辿ると日本人の福島邦彦さんが1979年に発表した『ネオコグニトロン』という神経回路モデルが、今の画像認識ブームを牽引しているCNN(Convolutional Neural Network)そのものです。

彼はNHK技研で研究した後、大阪大学などで教鞭をとっていて、そのときに彼の講演を学会で聴講した記憶があります。そのころから画像をたくさん並べて、畳み込みやプーリングの処理を行なっていた人です」

ネオコグニトロンの回路構造。Copyright © 福島邦彦 2006, All Rights Reserved.

福島 邦彦 氏
脳における情報処理機構の解明のために、神経回路モデルを仲介とする合成的手法を用いて研究を進めている。 とくに、視覚系における情報処理や記憶・学習・自己組織化の機構の神経回路モデルの構成などに興味を持つ。
「ネオコグニトロン」(学習によって視覚パターン認識能力を獲得していく deep CNN,1979年に発表)や、「選択的注意機構のモデル」(特定の視覚対象に注意を向けてその対象物を認識し、ほかの物体から切り出してくる機能を持った神経回路モデル)などを提唱した。
プロフィール詳細

2019年にコンピューター界のノーベル賞と言われる「チューリング賞」を受賞したFacebook AIラボ所長のヤン・ルカン氏も過去にNatureへ投稿した論文で福島氏の論文を引用している。

――長谷川
「近年の第三次AIブームは計算マシンの能力が上がり、インターネットでビッグデータを得られるようになったため、同じ手法でも大きな結果を残せるようになったのがブームになった理由のひとつでしょう。

以前国内ではあまり相手にされなかったのに、海外企業がニューラルネットワーク、ディープラーニングと言い始めると、みんなわっと飛びつくようになったのは非常に複雑な心境です」

もしあの時、日本が動いていれば、と思う人も多いかもしれない。

2012年の大規模画像認識協議会「ILSVRC」でトロント大学のチームがはじめてディープラーニングを画像認識に使って圧勝したことにより、世界的に改めてディープラーニングが使える段階に入ったと再認識されたのだろう。

昨今の画像認識ブームとディープラーニングが密接な関係を持っているのは確実だ。

画像認識の仕組み

実際に画像認識は、どのような仕組みで動いているのか。

――長谷川
「前準備として、コンピューターで画像を適切な形に処理し、ディープラーニングを用いた識別機に画像を入れて学習させます。そして学習が完了した識別機に新たな画像を入力すると、これは何%の確率で何であるという結果を画像認識が出してくれます」

今我々が見ているスクリーンは、小さなピクセルの集合体である。デジタル画像にはラスター画像とベクター画像の2種類が存在し、多くの写真はラスター画像というピクセルの集合体で構成されているため、その分解から始めるのだ。料理をするときに野菜を洗い、細かく切る行動と似ている。

下の画像を参考にして説明していく。

Photo by FineGraphics on 写真AC

画像を拡大していくと、小さい四角(ピクセル)が見えてくる。よくテレビやカメラなどの解像度を表現する際、「〇〇万画素」という表現をするが、それは単位面積あたりに何個ピクセルがあるかを説明している。ピクセルが多ければ多いほど、滑らかで綺麗な画像になるのだ。

  • 画像処理
    コンピューターが画像を認識しやすくするために、特定の処理を行う。主に画像のノイズや歪みを取り除き、明るさや色彩を調整、物体の輪郭を強調して、物体の領域を切り出す。

  • 画像から情報を抽出
    画像からピクセル単位で特徴を抽出。ピクセルは画像を構成する最小要素であり、色や明るさなど、さまざまな情報がついている。これら情報のパターンを確認することで、何が画像に写っているのか認識をする。

  • 特定物体認識
    事前に「ラベル」「大量の画像データ」を学習させ、そのなかに識別させたい画像を入力することで何が画像に写っているのかを特定する。

そしてここから、ディープラーニングを構成しているニューラルネットワークの一種、畳み込みニューラルネットワーク(CNN)が重要となってくる

ディープラーニングを用いた画像認識モデル

CNN(Convolutional Neural Network)


今までは、特定物体認識の部分で、人間が主観に基づいたラベル付けをしていた。それに比べて、CNNは人間でもわからない特徴量を導き出して学習していく。これによって大幅に識別率が向上し、昨今の画像認識ブームへと繋がった。

音声、数字などのデータは、ランダムな中からどのデータを取るか設定する必要がある、ゆえに今までのニューラルネットワークでは分類までに多くの時間を要した。それに比べて画像などの空間的データは、限られた空間内での隣接性を利用できる。

画像のなかでは、あるピクセルと遠いところに位置しているピクセルが影響することは少ない。その一方で空間では近くにあるものほど影響を受けるため、画像も近くにあるピクセルから影響を受ける。この性質を使い、パラメーターの数を少なくしたのがCNNである

Ledge編集部で作成

CNNでは、入力に近い側から順番に簡単な特徴量が学習され、それが組み合わされることによってより複雑な特徴量が学習される。主な処理として、「畳み込み(Convolution)」と「プーリング(Pooling)」がある

  • 畳み込み(Convolution)
    たくさん画像を見せていくと、「この画像にはこういう特徴がある」ということを学習していく。画像中から切り出された範囲に、特定の関数を重ね合わせることで特徴を表すマップを生成する作業。

  • プーリング(Pooling)
    プールするという英語が、水たまりなどを意味する。特徴のなかから、より優先して特徴を選んでひとまとめに絞り込み、そのなかから一番値の大きいものを選んでいく手法。

参考文献:AI白書 2019

CNNは畳み込みとプーリングを交互に行うことで構成されている技術であり、画像認識以外にも物体検出、クラス分類、物体セグメンテーションや画像キャプション生成などさまざまなところで中心的に用いられている。

いくつかの過程を経て、最終的になにがどのくらいの確率で画像に写っているのかを出力してくれる。

この結果を応用して、カメラの顔認証や画像検索など、さまざまなシステムへ実装されていくのだ。

画像認識ライブラリ

実際に画像認識の技術を導入したいと思ったときに使えるライブラリを紹介しよう。どのライブラリが一番優れているというのはなく、使う目的や状況に応じて選択するのが良いだろう。

画像認識に使える主要なライブラリは以下の通り。

TensorFlow

Copyright © TensorFlow, All Rights Reserved.

Googleが開発した機械学習用のオープンソースソフトウェアライブラリ。
顔認識・音声認識・自動運転など多方面で実装されている。

OpenCV

Copyright © OvenCV, All Rights Reserved.

Intelが開発したオープンソースコンピュータービジョン向けライブラリ。
画像処理・構造解析・機械学習などに実装可能。

PyTorch

Copyright © PyTorch, All Rights Reserved.

FacebookのAI Research lab(FAIR)が開発した機械学習用のオープンソースソフトウェアライブラリ。Pythonにおける数値計算を効率化する拡張モジュールであるNumpyと操作方法が似ており、近年人気が上昇している。Caffe2が併合、Chainerの開発元PFNが研究開発基盤をPyTorchへ移行すると発表した。

画像認識API

加えて、企業などがすぐ使えるサービスとして用意されているAPIも紹介する。

Watson APIs「Watson Visual Recognition

Copyright © IBM Watson, All Rights Reserved.

IBMが開発したAI「Watson」の提供する画像認識API。既に画像学習が済んでいるため、さまざまな用途で利用可能。もちろん機械学習で独自の学習をさせられる。基本有料だが、「ライト」表記のあるAPIは無料で利用可能。

AWS「Amazon Rekognition

Copyright © AWS, All Rights Reserved.

Amazon Web Serviceが提供する画像認識API。コンピュータビジョン向けクラウドベースSaaS。機械学習の専門知識は必要とせず、データを提供するだけでタグ付けなどを自動で処理してくれる。

Azure「Computer Vision API

Copyright © Microsoft Azure, All Rights Reserved.

MicrosoftのAzure Cognitive Serviceが提供する画像認識API。画像を認識した後の特徴抽出をしてくれる機能が多数ある。

画像認識の活用事例

ここからは、画像認識に関する活用事例をまとめていく。

製造業の事例

製造業にAIを導入する際のリアルタイム性・セキュリティー性問題をエッジAIで解消。また、長期的運用を視野に入れた顧客企業向けのデータサイエンティスト育成事業も手掛ける。ALBERTとマクニカの製造業AI導入に関する対談。

Canonの事例

画像認識AIで数千人もの人数を数秒でカウントできる映像解析技術をキヤノンが開発。今までの映像解析技術は人口密集環境における人数カウントが困難だったが、セキュリティー・マーケティングに応用できるとして付加価値創造を目指す。

自動運転の事例

埼玉工業大学がキャンパスと最寄駅を自動運転のスクールバスで繋げる計画を始動。バス車内のディスプレーでは、ライダーやカメラによる画像データをディープラーニングによりリアルタイムで解析。AIによる自動制御の仕組みがわかる各種情報などが表示され、学生は通学時にAIを体験的に学習できる。

無人レジの事例

AIによる無人レジの動き、Amazon GoやJR東日本とサインポストが協業のAI無人決済システム「スーパーワンダーレジ」を始め、国内外で動きが活発になっている。記事では、国内・海外の無人レジの事例を、仕組みや現状を交えて紹介する。

パン画像認識レジの事例

全国300店舗で利用されているAIレジ「ベーカリースキャン」開発元である、株式会社ブレインの原 進之介執行役員に開発までの道のりを聞く。ディープラーニングだけがAIではない、役に立つ、夢のある製品の作り方とは。

技術継承の事例

高齢化と後継者不足が課題となっている養蚕業にAIを導入、プログラミング未経験者でも簡単に活用ができるNeural Network Consoleで技術の継承に挑む。

テレビ業界の事例

日テレで2019年7月21日の地上波で放送された番組「NNN参院選特番 ZERO選挙2019」と「日テレNEWS24×参議院選挙2019」。その裏で、AIの顔認識技術を使った実験が行われた。映像内の人物と名前の間違いによる誤報を防止するための、確認作業の工数を大きく削減させたという。

ヘルスケアの事例

いつ、どこで、なにを、どれくらい食べたのか?何時間寝たのか?運動時間は?というような手間のかかる入力作業が、ヘルスケアアプリのユーザー離脱要因となっている。この課題を解決する方法を、AIを用いて新時代のUI・UX体験を開発するFiNC Technologies 代表取締役CTO 南野充則氏に聞いた。

農業の事例

農業における就業人口の減少と高齢化に対する省力化を進めるべく、ドローンで上空からキャベツを撮影し、膨大な量の画像をつなぎ合わせてAIで解析。将来的にはキャベツの育成状況から収量の予測を目指すプロジェクトが発足。

人工脳SOINNという手法

これまでディープラーニングを主流とした画像認識を紹介してきたが、ディープラーニング以外の方法で画像認識技術を実装する方法も存在する

それが長谷川氏が開発している、人工脳SOINNだ。人工知能と人工脳、一見違いがないように思えるが、使っている技術から違うのだという。

人工脳とは

人工脳はAIを育成するとき、競合学習法を主なベースとしている。

競合学習法はニューロンがはじめにふたつだけあり、あとは与えられたデータによって自分で成長していく。一方、ディープラーニングは誤差逆伝播法をベースにしており、誤差逆伝播法はニューロンをいくつもの層にして並べ、膨大な数のデータから特徴を厳選して精度を高める。

――長谷川
「ディープラーニングは最初に器を決めて、データを入れる。大きすぎたり、小さすぎたり、どこが最適か見極めるのも大変で、後でデータを入れたくなったときも再度構造を変えて計算し直したりするのでいろいろ制約があります。

その部分を柔軟に解決する方法として人工脳を開発しています。以前はあまり理解されなかったのですが、ディープラーニングのブームも相まって徐々に有用性が理解され使っていただけるようになってきました」

ディープラーニングがビッグデータを用いて学習される教師あり学習、人工脳が人間のように少ないデータから自分で特徴を学習していく教師なし学習と捉えると分かりやすいかもしれない。

認識させたい対象の画像を取り込み、CPUだけで教師データを覚えさせれば、活用が可能になる

――長谷川
「AIに学習させる際、不良品の画像を集めて欲しいというと、多くのクライアントは『それほど数がない』と言います。不良品の画像は出したくないというクライアントもいます。

そこで、通常大量にあるOK品の画像のみで学習させ、OK品と違いのある画像があれば、それを不良品の候補として取り出す学習器を作りました。
候補画像は現場でベテランに確認いただき、確かに不良品となれば、それを不良品画像としてその場で追加学習できるようにしていきました。

現場のベテランは、AIにとって最良の先生です。ベテランが新人を教育されるように、日常業務の延長に近い形でAIに教示頂けるよう、機械学習プロセスやUIなども工夫しています。

ベテランが現場のPCで、AI出力の確認や修正・再学習ができるようにすることもよくあります。これができると、クライアントは社内で、自らAIを育てられ、育ったAIはそのまま管理下におけるなどメリットが多く、とても喜んでいただけます」

SOINNの活用例

  • 地下の異常検知
    地下にあるインフラの形を作業車で移動しながら専用のレーダーで調べ、画像で出力された結果を人間が判断し異常を探す。ベテランでも1日10kmが限界だったが、人工脳を導入した結果1時間に200km見られるようになった。AIが示した異常個所だけを人間が再チェックするため、効率が大幅に向上した。今では多くの道路点検AIに人工脳が導入されている。

  • 家庭ゴミ焼却発電所
    家庭からでたゴミを燃やしてその蒸気で発電する廃棄物発電。無駄なく発電するためには、天気やゴミの量をもとにその日の焼却調節、最適化していた。しかし、ベテランが経験をもとに行なっており、人材が不足していた。そこで人工脳がまずベテランの知識を学び、最適化して導入していく。ベテランが行う同じレベルの燃焼効率を24時間連続で実現するのが目標。今現在テスト運用が始まっており、実用間近だ。

人間ができない作業(24時間作業、長時間のチェック)をAIが代替する代わりに、最後の重要なチェックなどを人間がすることで効率的に精度の高い仕事ができるようになるという。

企業は持っているデータによって、ディープラーニングを使うのか人工脳を使うのか選定した方が良いであろう。

――長谷川
今後は災害予測、洪水予測や避難誘導にも活用していきたい。業態関係なく、SOINNを持っていくだけでデータを学習し専用AIを各企業で育てられるようになるのが目標です

画像認識の今後

Photo by Rico Reutimann on Unsplash

――長谷川
「わからないことを『ググる』と言いますが、今後はそれがさらに進み、いろいろなものにAIが搭載され、ググらなくても教えてくれたり、自分に代わって機器や装置を操作してくれるようになるでしょう。

誰もが、自分のスマホで自分専用AIを育てる時代はそう遠くはないはずです。スマホのような個人端末は、個人情報の宝庫です。預金残高や健康診断の結果といったプライバシー情報に、自分でアクセスすることは何の問題もありません。同じように、自分専用のAIにだけは、アクセスを認めるのです。

プライバシーを守りつつ自分の「すべて」を学習し、自分のために働いてくれる自分専用AIは、国民的アニメのネコ型ロボットのように、無くてはならぬ相棒になるでしょう。近年発展の目覚ましい画像認識技術も、そうした世界の実現に必須の要素技術であり、さらに進歩して行くでしょう」

今後は画像認識を活用した技術で、便利な世界がやってくるのは必然であり、CES2020で発表されたToyota Woven Cityプロジェクトなど、新時代が楽しみなのは間違いない。

だからこそ、画像認識やAIが当たり前になった世界で何が必要とされるのか見極めることが、次の時代を生きるヒントになるのかもしれない。