学習データはなぜ足りない? ベンダー、ユーザー企業が語る自然言語処理の今と未来

このエントリーをはてなブックマークに追加

本稿は、Gengo社による寄稿です。

AI、機械学習を上手く活用できれば、ビジネスだけでなく社会の発展に大きな貢献が期待できます。しかし、学習データの不足によって、多くの企業がAIの導入に苦労しています。学習データは、どのようなアルゴリズムを構築する場合にも必要不可欠なものです。

そんな中、GengoではGengo AIという、AI開発に必要な学習データの構築および修正の分野でデータ不足に悩んでいる企業に対してソリューションを提供しています。

日本だけでなく、世界的に問題になっているデータ不足はどのようにすれば解決できるのか? Gengo社のGengo AI担当バイスプレジデント、チャーリー・ワルターと、Gengo AI導入企業であるBasis Technology(BasisTech)のカール・ホフマンCEOに話を聞きました。

チャーリー・ワルター
Gengo プロダクト&グロース担当バイスプレジデント
ベルリン出身。イエール大学卒業。サンフランシスコでKPCB Product Fellow、Uber(Uber Advanced Technologies Group)のプロダクトマネージャーを経て2017年にGengoへ参画。現在はGengo AIの開発に従事。


カール・ホフマン
Basis Technology 共同創業者/会長 兼 最高経営責任者
1995年にBasis Technologyを創業し、アメリカ企業のアジア市場向け製品の国際化サービスを開始。Basis Technology設立前は、ボストン、ニューヨーク、東京で、金融や情報処理企業の国際化コンサルティングを手がけた実績を持つ。

学習データが不足しているのは「人力」に頼らざるをえないから

――AI開発にはなぜ「学習データ」が必要なのでしょうか?

――チャーリー
学習データがなければAIは存在しません。データのクリーンさ、関連性、品質は、AIが目標に到達できるかどうかに直接影響します。学習データも、人間の学習と同じように考えるのがよいでしょう。

質の良いデータがなければ、AIはジョブをでたらめに実行することを学習してしまいます。優秀な学生には世界的に有名な教授を付けようとするのと同様に、AIにも適切にアノテーションされた最良のデータを使用するべきです。そうして初めて、AIプロジェクトはビジネスを次のステージに押し上げることができます」

AIが学習するフロー
提供:Gengo社

――AI開発を始めようとしても、学習データが用意できない、などの声はよく聞きます。何が学習データ不足の原因となっているのでしょうか?

――カール
「従来、データを準備するためのプロセスは、時間もお金もかかるものでした。アクティブ・ラーニング・アノテーションのような新しい技術は、このプロセスの高速化に役立っています。このツールがより広い範囲で利用されるようになれば、質の良い学習データがもっと入手しやすくなるかもしれません」
アクティブ・ラーニング・アノテーション
データのアノテーション(タグ付け)を効率化する技術。アノテーションの速度、および現在と同等の精度へ達するために必要な学習データの量を減少させる。
――チャーリー
「学習データが不足している大きな理由の1つは、 学習データの作成や機械学習アルゴリズムの学習の際、人間の力に依存せざるをえないからです。

学習データをアルゴリズムに使用するためには、その前に人間が手作業でデータにラベル付けした、クリーンなデータである必要があります。品質の悪いサンプルや無秩序な構造によって、プロジェクト全体が失敗することもあるので、学習データを人間が注意深くチェックするのが非常に重要です。

タグ付けされていないデータでAIに学習させるのは、多くの場合非常に困難です。たとえば、音楽のデータセットでは、それぞれの曲にアーティスト名やレコードレーベルなどのタグを与え、AIが学習データを利用し推論を行う際、役立つ手がかりを提供します。

しかし、数千あるいは数百万ものデータにタグ付けし、各ラベルの正確性を確認するという手間のかかる手作業をやりたいと考え、かつ高いスキルを持つ人材を見つけるのは困難です。

画像を見て「猫」か「犬」かをラベル付けするようなプロジェクトは特別な技能を必要としないので、やりたい人は誰でも可能です。しかし、プロジェクトによっては専門的な知識を必要とするものもあります。たとえば、中国の政治的混乱に関するフェイスブックの投稿を感情分析するためには、中国の政治と中国語の知識が必要となってきます」

Basis TechnologyがGengo AIをパートナーに選んだ理由

――カール
「Basis Technologyは、テキスト分析プラットフォームやデジタルフォレンジック・ソフトウェア、 エンタープライズサーチ、データ統合アプリケーションを提供しています。これらの製品はすべて自然言語処理を組み込んでおり、多くのものに応用できます。

たとえば、本人確認や顧客の声、イベント予測や犯罪捜査などです。Basis TechnologyとGengoの関係はシンプルで、すべてデータに関係しています。データは現代における金鉱であり、プロバイダーこそが差別化のためのカギを握っています。

ツールはますます横並びになってきています。プロバイダーは以前、標準的なTensorFlow / Pytorchライブラリを使用して、ディープラーニングではなく独自の機械学習を構築していました。現在は、本当に質の良いアノテーションツールが存在しないので、独自のアノテーションツールの開発に投資しています。

最終的に、他社との差別化を実現できるのは、データの品質でしょう。プロバイダーはデータの品質によって評価されます」

提供:Gengo

――チャーリー
「Gengo AIはクラウドソーシングを利用して、21,000人以上の優れた人材を世界中から集めています。多言語ニーズへの対応や自然言語処理 (NLP)の学習データの提供を得意とする、効率的で高品質なクラウドサービスを提供しています。

最近、機械学習の普及が本格的に始まる中、お客様は、翻訳サービスを提供する当社に自然言語処理の学習データを依頼してきます。ほかに頼るところがないからです。私は、自然言語処理の分野でデータ収集のスケーラブルな方法を提供することに、大きなビジネスチャンスがあるだろうと考えました。

当社はクラウドソーシングによる翻訳から、機械学習モデル構築のための基幹業務データのラベル付けまで、サービスの領域を広げています。Basis Technologyは、自然言語処理のためのデータ要件に関する深い知識を持っているので、当社の言語に関するクラウドソーシングの専門知識をうまく補完していただけると考えています」

幅広い分野で求められる自然言語処理技術

――自然言語処理技術が求められるのはどのような分野でしょうか?

――カール
「自然言語処理はさまざまな業界で利用されています。自然言語処理とは、人間の言語の構造化データや非構造化データを大量に分析する必要のある機能を実行する場合に、通常人間がおこなう分析を人間よりはるかに早く大量にこなすシステムやソフトウェアのことです。

人間の言語は、さまざまな考えを非常に多くの方法で、しかも多様な言語で伝えることができます。数字と違い単語の意味は文脈によって異なるので、自然言語処理が必要になるのです。

活用事例には次のようなものが挙げられます」

  • 財務コンプライアンス
    取引データから詐欺やマネーロンダリングの可能性がある異常を見つける・ KYC(顧客確認)の際、ウォッチリストに照らして既存顧客や新規顧客の名前をスクリーニングする

  • 顧客/従業員の声
    数千件にわたる非構造化コメント/フィードバックからテーマを見つけ出し、構造化されたアンケートの回答と結びつける

  • ヘルスケア
    患者の記録を繰り返し、さまざまな表現を用いて分析することで、特定の結果に関連するテーマを見つけ出す・ 普遍的な識別番号がない場合に、名前をファジーマッチングして患者の記録を探す
――チャーリー
「ヘルスケアでの自然言語処理のもう1つの活用事例としては、Siri(シリ)と同じような音声アシスタントに医学用語を学習させたり、医用画像を理解できるように画像分類を学習させたりすることが行われています。

別の活用例としてはチャットボットが挙げられます。チャットボットは実際の会話を真似るので、自然言語処理や感情分析に大きく依存しています。ほかにも、自然言語処理は文章からその筆者の気持ちが肯定的か否定的かを判断するために利用されており、自社製品のソーシャルメディア上の評判を企業が分析する際などにも役立ちます」

自然言語処理の未来像

――カール
「アクティブ・ラーニング・アノテーションは、機械学習のためにデータ準備をするもっとも優れた方法の1つです。

アノテーションのプロセスでは、アプリケーションの機能に即してデータにラベル付けをします。目標が、非構造化テキストから人間、組織、場所を特定できるアプリケーションの構築だとすれば、人間、組織、場所を適切にラベル付けした、大量の学習データを用いて学習させなければなりません。

このプロセスは従来、人間しかできず、非常に時間と手間のかかる作業でした。 しかし、このプロセスを半自動化するアクティブ・ラーニング・アノテーション・ツールと呼ばれるアプリケーションによって、人間のアノテーターの作業を補助できるようになりました。

このアプリケーションがデータ処理の初期段階を実行し、ラベル付けに必要な要素を特定してラベルの提案を行います。これは、学習データの開発において非常に有望な領域であり、Basis Technologyは現在、次世代のアクティブ・ラーニング・アノテーションを構築している最中です」