教師なし学習とは | 教師あり学習や強化学習との違い・活用事例・代表的なアルゴリズムを紹介

このエントリーをはてなブックマークに追加


機械学習とは、コンピューターが大量のデータを学習し、分類や予測などのタスクを遂行するアルゴリズムやモデルを自動的に構築する技術です。現在のAIの中核技術であり、ディープラーニングも機械学習の一部です。

ここでは、機械学習の学習手法の1つである教師なし学習について紹介します。教師なし学習は「教師なし」という名前の通り、正解を与えずに学習を行います。データから共通する特徴を持つグループを見つけたり、データの構造やパターンなどを抽出できます。

教師あり学習・強化学習との違い

機械学習は学習の方法から、「教師あり学習」「教師なし学習」「強化学習」の3つの枠組みに分けることができます。ここでは、教師なし学習がほかの2種類とどのように違うのか解説します。


【PR】
sponsored by 株式会社 TACT

教師あり学習

教師あり学習とは、学習データに正解を与えた状態で学習させる手法です。教師あり学習で解く問題で代表的なのが、「回帰」と「分類」です。

回帰とは、連続する数値を予測するものです。平均気温や天候といったデータとお弁当の販売個数の関係を学習し、将来のお弁当の販売個数を予測する、といったものが回帰にあたります。

分類とは、あるデータがどのクラスに属するかを予測するものです。迷惑メールか否かが分かっているクラス分けがされたデータから文章の特徴とクラスの関係を学習し、新着メールが迷惑メールか否かを予測する、といったものが分類にあたります。

教師なし学習

教師なし学習とは、学習データに正解を与えない状態で学習させる手法です。たとえば大量のメールを教師なし学習で学習すると、文章の特徴が似ているか否かを導きグループ分けできます。教師あり学習のように、メールが通常メールか迷惑メールかというような正解を与えて学習するわけではないため、そのグループがなにを示すのかは解釈が必要です。教師なし学習の詳細については、次の章で紹介します。

強化学習

強化学習とは、学習データに正解はないが、目的として設定された「報酬(スコア)」を最大化するための行動を学習する手法です。将棋AI・囲碁AIといったゲームAIが打ち手を学習する際や、自動運転における状況判断の学習に活用されています。

教師なし学習の代表的なアルゴリズム

教師なし学習といっても、さまざまなアルゴリズムが存在します。ここでは代表例として、以下の4種類を紹介します。

・GAN(敵対的生成ネットワーク)
・クラスタリング
・主成分分析
・アソシエーション分析

GAN(敵対的生成ネットワーク)

GANは、Generator(生成者)とDiscriminator(判定者)の2つのネットワークが競合することで学習される手法です。Generatorが入力データに似た画像を生成し、Discriminatorはそれが訓練データか、もしくはGeneratorが生成した画像かを判定します。これが繰り返されることで学習が行われます。

クラスタリング

クラスタリングはデータ間の類似度にもとづいて、データをグループ分けする手法です。活用例として、顧客情報をクラスタリングして顧客をグループ分けし、同じグループ内で同じ商品が複数回購入された場合、その顧客と同じグループに属している人たちにもレコメンドするといった方法があります。

グループ分けの仕方で階層的クラスタリングと非階層的クラスタリングに分けられます。

階層的クラスタリングはもっとも似ている組み合わせからまとめていくもので、結果を樹形図で見ることができますが、計算量が多いためデータ量が多い場合は向いていません。

一方、非階層的クラスタリングはグループの数を決める必要がある代わりに、データ量が多い場合も対応可能です。類似度の計測方法にもいろいろな種類があるため、問題に対して適切な方法を選ぶ必要があります。

主成分分析

主成分分析とは多種類のデータを集約する手法です。

たとえば甘み、苦味、酸味、コクなどデータの種類が多いとき、主成分分析により、もとの情報をできるだけ損なわない、集約されたデータでの表現が可能です。主成分分析で出力されたデータが何を示しているかは、人が解釈を与える必要があります。

アンケートの各項目の評価結果から総合評価を導くといった活用方法があります。

アソシエーション分析

アソシエーション分析とは、紙おむつを購入する人はビールも購入するというような、データ間の関連を発見する手法です。

たとえば商品の売上向上のため複数の施策を行ったとき、どの施策が一番売上に貢献したかを分析するといった活用方法があります。

教師なし学習の活用事例

最後に、GANの活用事例と、異常検知や画像認識で学習データが少ない場合の教師なし学習の活用事例を紹介します。

GANによる人工歯デザイン

カルフォルニア大学バークレー校とニューポートビーチに位置する歯科先端技術研究所Glidewell Dental Labは、共同で人工歯をデザインするGANを開発しています。GANによる人工歯と歯科医による人工歯を比較したところ、GANによる人工歯のほうがより患者の口に合い、噛みあわせが良いという研究結果が出ています。

教師なし学習による異常検知

異常検知とは、データから通常のパターンとは異なる異常な状態を検出することです。過去に異常が発生した状況を学習する教師あり学習でモデルを作成することも可能ですが、そうした事例が少ない場合は学習が難しいものです。

このような場合には、教師なし学習による異常検知が行われています。教師なし学習による異常検知では、モデルが正常な状態からどの程度逸脱しているかを数値化し、異常度を判断します。

キユーピーが食品工場の不良品検知のために導入したAIも、教師なし学習による異常検知を行っています。

教師なし学習による画像認識

画像認識とは、画像のなかに一体何が写っているのか、コンピューターや機械などが識別する技術です。

画像に「猫」である、「犬」であるといったラベルを与える教師あり学習が一般的ですが、教師なし学習による画像認識も可能です。例としては、2012年にGoogleが発表したAIがあります。このAIはラベルのない大量の画像を学習することで、人間の顔、猫の顔、人間の体の画像に強く反応するニューロンを作り出しました。教師なし学習の画像認識ではラベルづけの作業が不要であるという利点があります。

教師なし学習は、正解を与えずに学習を行います。そのため、正解を定義しづらい問題や正解データの作成が大変な問題などに活用できます。数字の羅列であるデータに教師なし学習を行うと、グループ分けや特徴抽出により人が解釈を与えやすい状態になるため、特にマーケティングなどでの活躍が期待できます。

教師なし学習に限らず、機械学習のさまざまな手法やその手法が得意とする事例を知ることで、ビジネスへのAI活用の幅が広がるかもしれません。