精度は8割程度。いまの自然言語処理では“できない”こと

このエントリーをはてなブックマークに追加

レッジは2019年11月、「自然言語処理の活用トレンドとビジネス実装の勘所」というテーマで、AI TALK NIGHTを開催した。シリーズとしては、13回目の開催となる。

今回はライオンブリッジベイシス・テクノロジーの2社が登壇。海外と日本の比較や、最新の事例を交え、自然言語処理のビジネス活用の裏側が語られた。本稿ではそのパネルディスカッションの模様をお伝えする。





登壇者
Cedric Wagrez (セドリック・ヴァグレ)氏 ライオンブリッジジャパン株式会社 AI事業部長
フランス出身。開発ツールの会社(インフラジスティックス)、オンラインプラットフォーム(Gree)、受託開発の会社を含めて、日本のIT企業で15年以上の経歴を持つ元エンジニア・プロジェクトマネージャー。2016年より、オペレーション部長として株式会社Gengoへ参画し、2018年にはGengoがLionbridgeの子会社化。現在はLionbridgeの日本AI事業部長に就任。海外のお客様との取引経験が豊富で、日本にもベストプラクティスの知識や、革新的なAI導入の支援をすることに関心を持っている。

長谷川 純一氏 ベイシス・テクノロジー株式会社 代表取締役
日本支社の代表取締役を務めるとともに、ベイシス・テクノロジーのアジア地域の事業戦略、営業、マーケティングを担当。これまでも新しい市場や事業モデルの創出を積極的に追及してきており、最近では、インドネシアを始めとする開発途上国での金融包摂を推進するスタートアップの起業。それ以前は、eコマースの黎明期にアマゾンの日本事業を成功裡にスタート、PeopleSoft/Oracle でERPシステムの開発および困難な導入プロジェクトの完遂、PowerBuilderを日本市場に展開しクライアント/サーバー コンピューティングの浸透に貢献。法政ビジネススクールの客員教授も務める。


モデレーター
飯野 希
株式会社レッジ 執行役員/Ledge.ai編集長

AI活用ニーズから見える、日本と海外の決定的な差

まず、日本の自然言語処理の現在地を知るべく、頻出する課題や海外との比較について語られた。

――飯野(モデレーター)
「最近の自然言語処理領域では、どのような課題を持ったクライアントが多いでしょうか?」
――長谷川
「最近は、非構造化テキストが増えてきているので、それを有効活用したいという相談をよく受けます。たとえば、VoC(Voice of Customer)のようなユーザーの声を解析したいという案件もあれば、従業員のセンチメント分析(感情分析)をしたいという相談もあり、社内外を問わず、テキストデータの使い道を相談されることが多いです。ただし、溜まっているテキストデータに業界ごとの特別な差異があるかというと、そうではありません」

長谷川 純一 ベイシス・テクノロジー株式会社 代表取締役

――長谷川
「基本的には目的が重要で、ビジネスバリューを生む、社内を説得できるソリューションにする、そういうアウトプットを出すためにデータが分析に足るようなものか、という観点で差異はあります。

たとえば、新規製品開発のフィードバックをする場合であれば、VoCや顧客の不平不満のデータはバリューがあると言えます。やりたいことに必要なデータが蓄積されているかが重要です」

Cedric Wagrez (セドリック・ヴァグレ) ライオンブリッジジャパン株式会社 AI事業部長

――ヴァグレ
「日本と海外でも、自然言語処理の実情は大きく異なります。海外の案件では、10〜30の多言語で機械翻訳する、という案件が頻繁にありますが、日本は日本語に絞った案件が多い印象です」
――長谷川
「海外は最初からグローバルな自然言語ニーズがありますよね。日本は日本に閉じたニーズが多い。最近では、GoogleやFacebookのようなプラットフォームベンダーがアルゴリズムを公開していて日本語で使うことができますが、アメリカはパブリックなデータの可用性が全然ちがう。日本ではまだそういったパブリックデータは限定的で、そこが差だと思います」

“なんちゃってサマリー”が多い。今の自然言語処理ではできないこと

続いて、自然言語処理の具体的な活用シーンとして、“会議の効率化”について語られた。AIの活用シーンで頻出するテーマだが、その実情はどうなっているのか。

――飯野(モデレーター)
「具体的な活用シーンについて話を聞いていきたいのですが、会場からは会議の効率化についての質問がいくつかきていますね。会議でのAI活用は実用的になってきたのでしょうか」
――ヴァグレ
「会議の効率化と言っても、いろいろなパターンがありますよね。議事録を自動作成したり、会議参加者の誰が何を喋ったか、誰の感情が昂ぶっているかなどを分析したり、用途はさまざまです」
――長谷川
会議の会話を表面的にサマリーするのは、5W1H的に構造を作ればそれなりに見えますが、実は難しいテーマの一つです。MITのパトリック・ウィンストンが、シェイクスピアの本をマシンに読ませて、それを何文字で要約させる、という取り組みをしていました。

しかし、コンピューターにストーリーを理解させ、それに基づいてコンピューターに文章を書かせるというのは、まだ実用段階に入っていないです。今の自然言語処理でサマリーしているものは、ポイントを少しだけ掴む目的であれば十分かもしれませんが、現段階では、なんちゃってサマリーが多く、実用化はそれでもよいという領域に限られています」

――ヴァグレ
「会議の発言を書き起こすサービスはいくつも出てきていますが、話者の感情分析をするためのひとつの壁は、発言と感情が必ずしも一致しないことです。発言の内容だけでなく、文脈・声色・声量などによって、怒っているのか喜んでいるのか、初めて分かります。

そのため、テキストから感情分析をした場合と、音声から感情分析をした場合で結果が異なることもあります。日本ではEmpathという企業が、音声から感情分析をしていて非常におもしろいです」

――飯野(モデレーター)
「サマリーは、“抽出”と“抽象化”のふたつの軸がありますよね。先ほど長谷川さんがおっしゃったパトリック・ウィンストンの取り組みは“抽象化”のアプローチで、“抽出”と比較して難易度が高いです。“抽出”はその精度を求めるほど、会議の何が大事なのか、というそこにない新たな情報を作ることになる点が、難しいと言われていますね」

個人情報なしで、精度の高い広告配信を。フランス企業の事例

自然言語処理の活用法は、業務効率化だけではない。ニーズや倫理といった世の中の変化に合わせて、技術を活用することでビジネスの価値を高めることができる。最新事例を交え、登壇者2名はこう語った。

――飯野(モデレーター)
「ビジネスインパクトをどう起こすのか、というテーマに移ります。例えば、議事録作成のようないわゆる業務効率化以外に、増えてきた活用法、もしくはこれから増えていきそうな活用シーンはあるのでしょうか。もし事例があれば合わせてご紹介いただけますか」
――長谷川
「リスク回避も一種のビジネスインパクトだと言えますね。たとえば、バンクオブイングランド(英国の中央銀行)のアンチマネーロンダリングに関する事例が挙げられます。アンチマネーロンダリングの主な作業は、膨大なテキスト情報を収集し、関連するものを結び付けリスクを分析することです。今ではデータサイエンティスト100名近くがその作業を効率的に行なっているそうです。

詳しい話は避けますが、金融機関にとってのリスク回避は、大きなビジネスインパクトです。一般の金融機関でも、そうしたAI活用が進むのではないでしょうか」

――ヴァグレ
「ヨーロッパでは近年、個人情報の取り扱いが非常に厳しくなってきていますが、フランスのとある広告会社のおもしろい事例があります。

その会社は、個人情報を取得して広告を配信するのではなく、ユーザーが読んでいるページのテキストを読み取り、かつポジティブかネガティブか記事内容を判別して、ポジティブな場合のみ、それにまつわる広告を配信する、といった取り組みをしています。ポジティブな場合のみ配信する理由は、ネガティブな情報を参照する広告は、ユーザーが求めているものではない可能性が高いからです」

――飯野(モデレーター)
「テキストデータの活用は、本当に幅広いですよね。これから取り組む企業は、まず何からはじめればよいのでしょうか?」
――長谷川
「自然言語処理と言っても裾野が広いです。SFA上に溜まったデータを形態素解析して検索しやすくする、などは我々もご支援することもありますが、前提として何を分析したら喜ばれるかを決めることが必要です。社内なのか社外なのか、日報なのか過去の契約書なのか、そういったものを共有したりその裏にあるものを発見できるようになった結果として、何がよくなるのか、っていうところから考えることが大事だと思います

自然言語処理では、目的と分析対象としているテキストの質によってアプローチはまちまちです。まず一歩目の動きは、身近にいる自然言語に詳しい人に、こういうことやってみたい、相談するのがいいんじゃないでしょうか」

8割の精度からビジネスバリューを見出す

――ヴァグレ
「目的が、『AIを作りたい!』になっている企業は危ないですよね。AIは強い道具ですが、本質的な目標はプロセス改善や、顧客に新しい価値を提供することだと思います。なので、PoCを進める際にも、KPIはシンプルであるべきで、問題が明確に定義されていることが重要だと思います」
――飯野(モデレーター)
「段階的に、解くべき課題を定義していくことが大事だということですね」
――長谷川
「そうですね、自然言語処理でできることにも限界があるので、その限界の下でもビジネスバリューがあることを見出すべきです」

――ヴァグレ
「99%の精度を求められることがありますが、現実的ではありません。どこをAIに任せて、どこを人がやるのか、そしてAIという道具を使うべきところはどこなのかを明確にすれば、99%の精度がなくても十分にビジネスになりうるのではないでしょうか」
――長谷川
所感では、今の精度は8割くらいです。当然、鍛えれば鍛えるほど92%、93%くらいまではいきますが、今度はROIがどんどん悪くなってくるので、どのくらいの精度を求めるのか、見極める必要があるでしょう」

本イベントの最後に、これからテキストデータの活用に取り組もうとしている企業へのアドバイスをもらった。

――長谷川
「活用されていないテキストや文書は、社内外に膨大な量が眠っています。コスト削減の面もあれば、収益ゾーンに結びつくような新たなビジネスにつながるかもしれないし、リスク回避のような使い方もあるかもしれないです。これって何かに使えないかな、と活用法を、常日頃からイメージしておくと、いざやってみようという時に、アイデアが出てくると思います」
――ヴァグレ
「チャットボットの領域はこれからも活用が増えていくと思いますが、その活用法はますます変化していくでしょう。IoTやロボティクスの分野とも融合し、言語+コンテキストの観点が重要視されるようになります。ユーザーがどんな表情をしているのか、ユーザーが会話の先に何を求めているのかを意識して、技術を取り入れていくことが必要です」