ディープラーニングとは|活用事例・仕組み・学習手法・機械学習との違い

このエントリーをはてなブックマークに追加


AI(人工知能)は、近年、さまざまな分野において技術革新として、急速に導入が進められています。株式会社アイ・ティー・アールの調査によると、2018年度のAI主要6市場の売上金額は199億5,000万円、前年度比53.5%増と大幅に増加しました。またそれ以降も順調な増加が見込まれ、2023年度は640億円になると予想されています。この発展を支える技術が「ディープラーニング」です。本稿では、東京大学大学院情報理工学系研究科の山崎俊彦准教授にお話を伺い、その活用事例から仕組みまで詳しく解説します。

* ITR Market View:AI市場2019(外部リンク)

山崎俊彦氏
山崎俊彦氏
東京大学工学系研究科電子工学専攻修了。工学博士。 現在、東京大学大学院情報理工学系研究科電子情報学専攻准教授。 2011~2013年まで米国・コーネル大学 Visiting Scientist。 ビッグ・マルチメディア・データを用いた魅力工学の研究に従事。


【PR】
sponsored by 株式会社 TACT

ディープラーニングとは?

ディープラーニングとは、ニューラルネットワークを多層に結合して表現・学習能力を高めた機械学習の一手法です。

単純に多層にするだけでは、表現力不足や過学習などの問題がありましたが、Dropout法やReLUなど、数々の工夫とビッグデータの助けにより解決されました。

現在、AIを構成するアルゴリズムとして、もっともよく用いられている手法です。

ディープラーニングの歴史

現在は、AIにおける3回目のブームと言われています。この3回目のブームのブレイクスルーとなった技術がディープラーニングです。

2012年、世界的な画像認識コンペティション「ILSVRC」において、東京大学やオックスフォード大学など名だたる研究機関を抑え、トロント大学が開発した「Super Vision」が圧倒的な精度で勝利を飾り、人工知能研究界に激震を与えました。

トロント大学のジェフリー・ヒントン教授らが開発した「**オートエンコーダ」という技術により、ニューラルネットワーク自身で特徴を捉えることが可能に。「Super Vision」にも用いられた、この*多層ニューラルネットワークを用いた学習方法を「ディープラーニング」と呼ぶようになりました。

*「入力層」「隠れ層(中間層)」「出力層」で構成されるニューラルネットワーク
**ニューラルネットワークの出力層の値が入力層と同じになるように、重みのパラメータを調整する手法

ディープラーニングと人工知能・機械学習との違い・関係性


「機械学習」は、ディープラーニングとあわせて耳にすることが多い単語です。混同されたり誤解されやすい、これらの違いについて、そしてそもそも人工知能AIとはなにか解説します。

人工知能(AI)とは何か?

人工知能(AI…Artificial Intelligence)とは、辞書には「学習・推論・判断といった人間の知能のもつ機能を備えたコンピューターシステム」と記されています。(大辞林 第三版より抜粋)

しかし、学術的な視点では「人工知能(AI)」という言葉は多義的であり、人によってその捉え方は異なります。人工知能の定義は、専門家の間でも明確に定まっていないのが現状です。詳しくは下記の記事をご覧ください。

機械学習とは何か?

機械学習とは、コンピューターが大量のデータを学習し、分類や予測などのタスクを遂行するアルゴリズムやモデルを自動的に構築する技術です。

AIを機能させる技術・アルゴリズムとして、ニューラルネットワーク以外にも「ニアレストネイバー法」、「決定木」、「サポートベクターマシン」など、さまざまな技術が存在します。

ディープラーニングと機械学習の使い分け

ディープラーニングと機械学習の違いは、特徴量を「機械が自動で学習するか」、「人間が手動で入力するか」という点です。

そのため機械学習は、限定的かつ構造化されたデータが利用可能な場合に用いられることが多いです。一方ディープラーニングは、複雑な非構造データを用いる際に利用されることが多く、「音声認識」「画像認識」「自然言語処理」などの分野に適用されています。

Photo on CCDC Army Research Laboratory

ニューラルネットワークの仕組み

ディープラーニングは、どのような構造で動いているのでしょうか。ここでは、機械学習を機能させるための一手法で、ディープラーニングの枠組みであるニューラルネットワークの仕組みを解説します。


最初に、ニューラルネットワークの仕組みから説明します。

まず、入力層にデータを入力し、そのデータを認識をするための指標である*特徴量 を入力します。その入力に対し、神経細胞間の接続強度に相当する重み w1 w2‥を掛けたものを、出力層のニューロンに入力します。

出力層のニューロンは、この入力を足し合わせたものを**活性化関数に通し、最終的な結果を出力します。この入力から出力までの一連の流れを「パーセプトロン」と呼びます。ニューラルネットワークは、このパーセプトロンを複数組み合わせることにより構成されています。


*学習データにどのような特徴があるかを数値化したもの
**ニューラルネットワークにおいて、線形変換をした後に適用する、非線形関数もしくは恒等関数

ディープラーニングの仕組み


ディープラーニングは、ニューラルネットワークの中間層を複数にすることで、特徴量をコンピューターが判断します。

――山崎
「たとえば、層が複数あると、ある層は色について考える、ある層は形状について考える、のように分解して考えられます。何が重要かをディープラーニングが自動的に学習できるようになり、それが人間が考えた特徴を用いるよりも認識精度が高くなりました」

ディープラーニングの学習手法

現在、活発に研究が進められているディープラーニングの学習方法について、「Pre-train & Fine-tune」「マルチモーダル学習」のふたつをご紹介します。

Pre-train & Fine-tune


「Pre-train & Fine-tune」は、事前に一般の画像情報を学習させ、それを専門分野の画像に転移して学習させることで、高度な解析を可能にする学習方法です。

――山崎
「たとえば医療画像を解析したいとき、医療の画像だけでは、学習のために十分な量を集めることが困難です。ゆえに、まず、インターネットに転がっているさまざまな画像を学習させることで、一般的な画像とはどういうものか、を理解させます。これを基本として、専門知識として医療画像を追加で学ばせることで、専門的な画像を解析にできるようになります」

マルチモーダル学習


「マルチモーダル学習」とは、複数の種類のデータを使ってAIが学習する仕組みのことです。

――山崎
「たとえば、画像と音声とテキストを持ってきます。まず画像は画像で、音声は音声で、テキストはテキストで学習させます。その後、一度学習を止め、それぞれ学習した3つの学習結果をつなげ、再び学習し直し、全体に学習結果(ロス)を返します。

つまり、画像、音声、テキストを、個別・全体両方で学習させる方法です。ディープラーニングは認識精度が高くなっただけでなく、画像や音声、言語といったこれまでの分野間の垣根を取っ払い、自由に行き来することを可能にしたことも大きな貢献だと思います」

ほかの多くの機械学習アルゴリズムがデータをすべて使って一気に学習しなくてはならないバッチ学習であるのに対し、ニューラルネットワークは、途中で学習を止めたりデータを変えたりアーキテクチャを変えたりしながら逐次学習させる事が可能です。これが、より多くの応用先を生み出しています。

例1:TVCMの効果予測
「何%の人が覚えるか」「何%の人が買いたくなるか」のような、CMを打つことで得られるであろう効果を予測します。
――山崎
「たとえば、画像データや音声データ、*メタデータ、画面上のキャプション、ナレーションなど、さまざまなデータを一度にディープラーニングで学習させ、予測することができます。上記のPre-train & Fine-tuneとマルチモーダル学習を組み合わせたアプローチです」
例2:GAN(敵対的生成ネットワーク)
GAN」は、用意されたデータから特徴を学習し、擬似的なデータを生成するアルゴリズムです。
――山崎
「本物を見分けるものと偽物を生成するふたつのニューラルネットワークを用いて、切磋琢磨させることにより、偽物の本物に対する生成精度を高めます。

たとえば、偽札を作る際の、偽札を作ろうとする犯人とそれを見破る警察や銀行員が、互いに切磋琢磨するさまを想像してみるとわかりやすいでしょう。偽物生成のニューラルネットワークは、最初はうまく作れませんが、だんだん工夫を凝らすことにより精度が上がります。

本物を見分けるニューラルネットワークも、偽物生成のニューラルネットワークの成果物を常に見ているので見分ける精度を上げていきます。最終的に、偽物を見分けられず通ったものが、GANにより生成されます」

この技術も、個別と全体の両方で学習を繰り返すことにより、可能になった事例です。

*あるデータが付随して持つ、そのデータ自身についての付加的なデータ 
例)業種、CMの打ち方 など

ディープラーニングを応用したAIビジネス活用事例

画像認識、音声認識、自然言語処理、予測、映像解析、異常検知など、ディープラーニングは様々な技術分野に応用されています。以下では、実用化した事例を紹介していきます。
Photo by Gerd Altmann on Pixabay

【画像認識】特大サイズの画像素材をAIで生成するサービス「OOH AI」


「OOH AI」は、特大サイズの画像素材をAIで生成するサービスです。ディープラーニングを用いることで、数十万pxサイズまで高解像度化でき、写真やイラストを元画像の縦4倍、横4倍に高解像度化することが可能です。主に屋外広告、交通広告に利用したい広告素材向けとなっており、早く、低コストでクオリティーの高いOOH用の画像を制作できます。

【音声認識×自然言語処理】AIスピーカー「Google Home」


Google HomeはGoogle社が製造販売しているAIスピーカーです。AIスピーカーとは、話し手の命令を音声認識により抽出して自然言語処理によって指示を理解し実行する機能を有するスピーカーです。Google Homeはハンズフリーで調べ物や翻訳など、生活の手助けになる機能が搭載されています。その他にも、音楽の再生やゲームアプリなど様々なエンターテイメントを楽しむことができます。

【予測】「インフルエンザ予報」


インフルエンザ予報は、全国各地のインフルエンザの流行度合いを予測し、可視化できるサービスです。インフルエンザ新規患者数のデータをもとに、ディープラーニングを用いた予測アルゴリズムを使用。地域ごとに今週〜4週間後までの流行期間を予測できるほか、流行度合いもレベル0〜3に分けて把握できるため、インフルエンザの予防に役立てることができます。

【映像解析】映像解析ソフトウェア「People Counter Pro」


People Counter Pro」は、キヤノンが発売する、ディープラーニング(深層学習)を用いて、ネットワークカメラで撮影した映像から、数千人規模の群衆人数をリアルタイムにカウントする映像解析技術を搭載した映像解析ソフトウェアです。映像から人の頭部を検出することで、人が密集している状況でも人数をカウントでき、また、指定した領域のなかにいる人数の表示や、推移のグラフ表示も可能です。そのため、混雑状況の把握や分析に活用できます。

ディープラーニングの将来性と課題

最後に、山崎先生にディープラーニングの将来性について伺いました。

これからの課題は「説明可能性」と「自律学習」

――山崎
「興味があるのは、ディープラーニングが難しいとしているExplainability(説明可能性)の分野です。以前は、機械学習でデータ分析するための特徴量の抽出を人間が行っていました。しかし、ディープラーニングの誕生により、人間よりも高い精度で、機械が特徴量を捉えられるようになりました。ゆえに、なにを重要視して機械に特徴量を捉えるかについても機械が判断するため、人間がその理由を説明することは困難とされることが多いです」

ディープラーニングは、AIの革新的技術として、現在の3回目のAIブームのブレイクスルーとなりました。では、今後AIがより発展していくために、これから解決すべきディープラーニングの課題とは何でしょうか。

――山崎
「今後の課題は、ディープラーニングを自律的にどう学習させるか、だと思います。

たとえばホテルで流行っている*ダイナミックプライシングを例にしましょう。現在の価格指標は、季節・天候などよりもホテルの近くでジャニーズのライブや大きな学会が開催されるなど、AIと関係がないものの影響が強いんです。つまり、これらをAIが理解するためには、ジャニーズがどういう集団で、彼らが来るとファンが何万人単位で動く、という一般常識を理解しなくてはなりません。

現在、AIには、このような一般常識や共通概念が存在しません。一般常識を、機械にどう自立的に学習させるかが、これから重要になると思います。また、ジャニーズのコンサートが来るという情報も自律的にどう獲得してくるかも重要です」

*ダイナミックプライシング……同一の商品やサービスの価格を需要と供給の状況に合わせて変動させる価格戦略。