日本に足りないデータ作成の原則。外国からやってきた機械学習ツールの実力は?

このエントリーをはてなブックマークに追加

AI開発を始める際、最初にぶち当たる関門と言っても過言ではない、教師データの作成。

画像解析や自然言語処理、音声認識などの分野で高い精度を出すには、質の高い教師データをどう作り出すかが勝負の分かれ目です。

実際のところ、AI開発期間の大部分が、データの整理やデータへの関連情報付与による教師データ作成に使われているのはあまり知られていない事実。データ整理が長引いてしまうことで、開発期間の圧迫人件費増加優秀なデータサイエンティストのモチベーション低下など、多くの課題が生じています。

アメリカ、ポルトガルを中心にグローバルで活躍するDefinedCrowdは、これらの課題を解決するため、機械学習 × クラウドソーシングで教師データ作成をおこなっています。

DefinedCrowd日本支社設立にあたり、CTOジョアオ・フレイタスさんと日本支社代表アヤ・ズークさんが、AI開発におけるデータの現状と課題、解決策について語りました。

Joao Freitas (ジョアオ・フレイタス)
DefinedCrowd / CTO
9年以上に渡り、マイクロソフトで最先端プロジェクトで研究を重ねる。2016年からDefinedCrowdに参画し、AIや機械学習のロードマップを作成し、チームを指揮している。AI に関する音声技術、機械学習、自然言語処理、HCI における革新に関心を持っており、AR(拡張現実)や VR(仮想現実)、医用画像、コンピュータービジョンに関する出版物を共同執筆している。
Aya Zook (アヤ・ズーク)
DefinedCrowd / General Manager, Asia Region
2006年から2016年までマイクロソフト本社でプロジェクトマネジメントに従事し、2016年からDefinedCrowdに参画。2018年3月より、アジアを統括するジェネラルマネージャーに就任。The Internet Marketing Associationでも役員を務める。

高品質データ作成でAI開発を支援する「DefinedCrowd」

DefinedCrowdは、AI開発に必要なデータを提供する新進気鋭のスタートアップ。

機械学習 × クラウドソーシングで、Human-in-the-loop(人間参加型)と呼ばれる教師データ作成の流れを作り上げているところが特徴的です。

DefinedCrowdが運営するクラウドソーシングコミュニティ「Neevo」を通して、

  • 音声
  • 画像
  • テキスト

など、多岐にわたる教師データを提供しています。

Neevoへ登録しているメンバーは45,000人を超え、53ヶ国、46言語に対応しているとのこと。

――ジョアオ
「Neevoは、既存の自動音声認識モデルが存在しなかったフレンチカナディアンのモデル構築や、20,000もの日本語文章に正確性の高いアノテーションを施し、高精度の自然言語解析システムを構築するプロジェクトなどの一端も担っています」

データ収集や整理を経験豊富な人間が担うことにより、未経験者がおこなう場合と比べ、データの質が大きく向上する、とジョアオさんは言います。

さらに、クラウドソーシングでは必要なとき、必要なだけ作業者を集められるため、短時間でデータ収集、データ整理、AIモデルのチューニングをおこなえるとのこと。

――ジョアオ
「データ収集、整理に時間がかかる上、AIモデルのトレーニングには継続的なフィードバックによる改善が必要です。

要するに、高精度のデータを揃えるところから戦いが始まり、どれだけPDCAサイクルを素早く回していけるのかが、AIの完成度を左右するということです」

先進国で進む教師データ作成の効率化

日本では、データの重要性を理解しようとする流れができていますが、欧米はどのような現状なんでしょうか?

――アヤ
「AIが脚光を浴びるようになり、データ活用の重要性が徐々に理解され始めています。同時に、データの需要が高まり、企業の収集するデータ量も桁違いに増加しています。

欧米のビッグデータ市場に関しては、

  • 分析用ソフトウェア
  • ライブラリ
  • パッケージ

が揃いつつあり、レイトマジョリティ段階まで成熟しています」

企業内では、蓄積したRawデータから教師データを作成する工程がボトルネックになっていると認識され始め、データ収集基盤が注目されるようになったと、アヤさん。

海外では、既にDefinedCrowdのようなデータ収集基盤を活用する流れができつつあるようです。

日本は人材育成とデータ活用ノウハウの蓄積が遅れている

日本でも欧米に引けを取らないほど、ビッグデータIoTAIに関する技術や、技術を用いたソリューションに注目が集まっていますが、産業データ利活用に積極的な企業の割合は、アメリカやドイツと比較すると、20%程度低い数値になっているのが現状。

アヤさんは、二つの原因がこの状況を招いていると言います。

――アヤ
「日本国内ではデータサイエンティストやIT人材不足が深刻な状態にあります。

データ解析に必要な統計学を修めた大学卒業者数は、年間4000人ほどと言われており、アメリカと比べると1/6程度。先端IT人材という枠組みで見ると、現時点で17万人不足していると言われています」

ただでさえ足りていないデータサイエンティストですが、大半の業務時間を教師データ作成に費やしているのも現状です。

モデルの設計やデータ分析は、データサイエンティストの力が必要不可欠な業務です。

ですが、データアノテーションは、ある程度管理されている状況であれば、専門性はそこまで求められないため、クラウドソーシングは人材問題を解決する有効な手段だと言えます。

アヤさんは、人材不足を第一の理由としてあげたうえで、日本でデータ活用が進まない最大の理由は別にあると言います。

――アヤ
「日本はICT導入が世界トップレベルなので、企業が膨大なデータを保有していることはたしかです。

にもかかわらずデータがあまり活用されていないのは、データ収集管理クレンジングの方法が確立されていないからだと考えています」

教師データ作成を円滑に進めるためには、

  • 自社でデータ構造化フレームワークを策定する
  • 海外でできつつある手法を積極的に導入する

など、いくつか手段があります。

世界で着々と進むデータ活用にどう日本企業が追いつくかが、今後、AI分野で競争力を高めるための鍵となりそうです。

データ活用までの新しい流れを提唱するDefinedCrowdの日本上陸、今後の活躍に期待です。