ストックマークは7月8日、オンラインイベント「いま注目のAI、自然言語処理の実社会への活用の可能性に迫る」を開催した。
このイベントは、同社の機械学習エンジニアの共著『BERTによる自然言語処理入門:Transformersを使った実践プログラミング』の刊行を記念して催されたもの。テーマは「自然言語処理の実社会への活用」だ。本稿では、第2部のパネルディスカッションの様子をお届けする。
浦本 直彦氏(写真中央)
株式会社三菱ケミカルホールディングス
執行役員 Chief Digital Officer
乾 健太郎氏(写真右)
東北大学大学院 情報科学研究科 教授
理化学研究所 AIPセンター 自然言語理解チームリーダー
言語処理学会 副会長
有馬 幸介氏(写真左)
ストックマーク株式会社
取締役CTO
word2vecやBERTのような汎用モデルの登場が研究の幅を広げた
パネルディスカッションは、以下3つのテーマにそって語られた。
- ニューラル言語モデルの登場で自然言語処理になにが起きたのか
- 現状のビジネスや実社会での活用、身近な活用事例
- 自然言語処理の今後の展望
1つ目のテーマは「ニューラル言語モデルの登場で自然言語処理になにが起きたのか」。乾氏は、word2vecやBERTの登場で、翻訳・分類・読解などの学習が格段にうまくなったという。
古典的な機械学習は、自然言語からうまい特徴を取り出すのが得意ではありませんでした。
単語をそのまま特徴として使うと、例えば“着物”と“和服”のような『類義語』がまったく違う特徴になってしまいます。それだと、“着物”が出てくる例を訓練で見ていたとしても、“和服”の例をうまく処理できません。word2vecのような分散表現、つまりベクトルで類義語などの特徴をうまく捉えることができるようになり、さらにBERTのようなニューラル言語モデルによって『文脈』も含めた特徴の学習が進んできました。
学習の精度が上がり、ベクトルという共通言語ができたことで、他のメディア(画像など)の情報と言語の情報をニューラルの世界で統合的に扱える環境ができてきました。そうした他のメディアの情報も“文脈”の一部だと捉え、文脈の情報を豊かにしてさらに学習を進めれば、ニューラル言語モデルがさらに豊かな知識を獲得できる可能性があると思います。
今後、ロボティクスなども取り込んでさらに文脈の幅を広げていけば、新しいイノベーションにも繋がってくるのではないでしょうか」
乾 健太郎氏/専門は自然言語処理、人工知能。1995年東京工業大学大学院情報理工学研究科博士課程修了。同学助手、九州工業大学助教授、奈良先端科学技術大学院大学助教授を経て、2010年より現職。2016年より理化学研究所AIPセンター自然言語理解チームリーダー兼任。情報処理学会論文誌編集委員長・自然言語処理研究会主査、言語処理学会論文誌編集委員長、国際会議EMNLP-2019 Geneal Chair等を歴任、2020年より言語処理学会副会長。
産業界ではどうか?という問いに、浦本氏は「AIの民主化で、最先端の技術が気軽に使えるようになったのは魅力的」だと語る。
社内情報を検索するのに、商用にしてもオープンソースにしても単に検索エンジンを持ってきて使うだけではなかなかうまくいかず、同義語辞書が必要、でも誰がどうやって作るのか?といったときに、BERTのような高性能な汎用モデルを自社でファインチューニングしてそれなりに精度を出せるのは、ユーザー企業にとって非常に使い勝手が良いと思います」
浦本 直彦氏/1990年、日本IBM入社、東京基礎研究所にて、自然言語処理、Web技術、セキュリティ、クラウドなどの研究開発に従事。2016年、Bluemix/Blockchain Garage Tokyo CTOとして、デザイン思考とアジャイル開発を行うチームをリードした。
2017年、株式会社三菱ケミカルホールディングスに入社し、人工知能技術やデータ分析などのデジタル技術を活用したデジタルトランスフォーメーションの推進を行なっている。2020年4月より同社執行役員 Chief Digital Officer。2018年-2020年6月、人工知能学会会長、現在九州大学および静岡大学の客員教授であり複数の大学で講義を行ってきた。2020年より情報処理学会フェロー。博士 (工学)。
私が(ストックマークを)起業した2016年は、手作業で5万件くらいのアノテーションをするなど、事前に相当量の訓練データを用意しないといけなかった。それでも精度が出るかどうかというレベルでした。BERTが入ってきたことで、事前学習モデルと1000件のデータがあれば良い成果が出るようになりました」
有馬 幸介氏/2008年東京大学工学部計数工学科卒業。2010年東京大学大学院情報理工学系研究科修士課程修了。同年新日鉄住金ソリューションズ(現 日鉄ソリューションズ)入社、2,000人月規模の基幹系会計業務システムの自動仕訳機能開発等を担当し、社長賞を受賞。2016年ストックマーク社を共同創業し、取締役CTOとして機械学習、インフラ〜アプリケーション全般を担当。
しかし、まだ「AIが人間を超える読解力を手に入れる」とはいかないようだ。
社内の知見をデータ化できない企業は生き残れない
2つ目のテーマは「現状のビジネスや実社会での活用、身近な活用事例」だ。
NLPの研究者からユーザー企業に移って活躍する浦本氏は、「今後はデータを企業の資産として、後世でも使えるかたちで残す重要性は増してくる」と主張した。
機器の点検文書、操業オペレーターや営業員が書いた業務日誌、研究報告書など、様々な非構造データをうまく扱っていくことが大事になっていくと思います。
類似度検索を使って、過去の日誌から『3年前も同じような機器の故障があった』、『あのときの申請書はどう書いただろうか』といった情報を拾っていくだとか。デジタル化されてないものもあり、その場合は書類棚を探して、昔の書類を直接めくる、という世界でした。
製造系のデータは寿命が長く、10年前の報告書が役に立つ、ということがあるので、手間暇をかけてでも知識化する価値があります。
企業が持つ資産とは、データや、事業を長く続けてきた知見にあります。例えば化学会社では化学品の配合レシピや、製品を安く安全に作る製造ノウハウなどの知恵が資産です。今は、無形資産という言い方もしますね。
モノ売りからコト売りに、という流れのように、ユーザー企業にとっては独自のデータとそこから生まれる知識、人の持つ経験が大きな価値になっていくのではないでしょうか」
乾氏は、ユーザー企業でのエンジニアの役割や各社がデータを作る必要性をこう語った。
ユーザー企業には実際の事業やデータがあって、企業や事業によってデータの特徴ややりたいことも異なってきます。そうした企業の中にエンジニアが育ち、内製化して自分たちのやりたいことに合ったデータ・モデルを作っていく、という仕事はおもしろいと思うし、今後さらに増えていくんじゃないかと思います。
BERTやword2vecのような一般的な道具は最大限に活用すべきですが、企業ごとにリソースをきちっと作ることも重要です。事前学習をいくら頑張ってやっても、万能なものは作れません。少数だとしてもデータをきちっと作って、必要なら辞書も作らないと使えるものにならないのです。
これからは自社に合ったデータ・リソースを作り、学習の精度を高められる企業が勝っていくんじゃないかなと思います」
あわせて乾氏は、「各国のデータレポジトリと比較しても日本語のリソースは少なく、データは弱い。言語処理学会などとも協力し、ユーザー企業が作るものをうまく共有できるようになるといいのでは」と述べた。
浦本氏はデータの継承に触れた。
どのような表現形式で残すかも重要です。今扱っている人にとっては既知のデータでも、5年後に違う人が見たらただの数字の羅列でよく分からない、ということが起きるかもしれません。
今扱っている操作可能なデータ形式とは別に、後世に残すデータフォーマットや知識体系、形式など両方考える必要があるでしょう」
これからの自然言語処理のテーマは「透明性、解釈性」
最後のテーマは「自然言語処理の今後の展望」。
乾氏は、説明可能なAIの重要性と、透明性や解釈性が今後のNLPのテーマになるだろうと述べた。
先ほど浦本さんが触れられていたデータの継承、知識を残していく過程では人が入ってきます。この、人が関与することと、全てがインプリシットであることがなかなか噛み合わない。そこをどううまく併合していくかが必要になってくると思います。
人間同士は言語などのシンボルを使って情報を伝えあっていますが、人と機械の間にも何らかのインターフェイスとなるシンボルがないとなかなか難しいんじゃないかと。このインターフェイスとして、説明、透明性や解釈性の問題が今後ますます重要なテーマになっていくだろうと思います。
事前学習されたモデルのブラックボックス性も現実的な問題として重要です。
たとえば、事前学習済みモデルに偏見・差別的知識が入っていると困るわけですが、そうした問題も含め、事前学習済みモデルを使った商品の品質保証をどうやるか。企業も何か新しいことを考えなくてはいけないと思います。
また、研究者の立場から見ると、事前学習に使われたデータの詳細を自分で調べることはできないので、事前学習済みモデルを使った実験はコントロールが難しいということになります。そうした道具を使いながらどうやってきちっとしたサイエンスをやっていくか、といったことも今後アカデミアが考えるべき興味深い課題だと思います」
現在、ディープラーニングの構造や中の動きを解析・分析する研究論文も増えているという。乾研究室でも、アウトプットの過程を説明する、というモデルの研究に挑戦している。
浦本氏は、人とロボットが協働する時代でのNLPの役割を語った。
また、将来的には、人と人との間にシステムが入り込んで、協調しながら意思決定するようになるんじゃないかと思っています。
リモートで仕事をしていると、チャットの相手が人間かどうかは分かりませんよね。質問にすぐ答えてくれるボットが作れるように、作業現場でも人間とロボットの協調が起きています。
自然言語は、人と人の会話だけではなく、人とシステムの間のインターフェイスにもなります。チャットボットみたいにシステムと会話をして仕事を進めるとか。新たなインターフェースとして、あるいはデータ形式や後世に残す知恵・知識としても、NLPの果たす役割は非常に重要になってくるのではないでしょうか。ロボットやシステムが人と協調する未来で、どういうものを使っていくのか、どういう形式で知恵を残していけばいいのかが重要になってくるでしょう」
浦本氏の話を受け、乾氏も「人と機械をどうつなげていくか」が勝負だと考えていて、1つの問題に対してニューラルのみと、記号とハイブリッドするという2つの方法でアプローチする研究を東北大で始めているところだという。
NLPに関わる人がワクワクしながら、新しいことに挑戦してほしい
パネルセッションでは、視聴者からの質問やコメントも多く寄せられた。「日本からインパクトのある研究を発信していくために、これから何をしていくべきだと思いますか」という質問には、両者がそれぞれの立場から意見を述べた。
BERTのようなブレイクスルーや、技術を突き詰めていって『このツールがないと仕事にならない』というものがNLPでもどんどん生まれてきて欲しいです。ツールを使う側も作る側もワクワクして、新しいことに挑戦していくことが大事なのかもしれません」
この分野にはおもしろいことが本当にたくさんあって、我々は30年研究していても未だにわくわくすることばかりです。
今日のイベントのように、NLPのおもしろさを発信して皆さんの力を結集し、日本からうまく出していく、ということをしていけるといいですね」
視聴者は500名超、「NLPへの思いが伝わってきた」「同僚にも見て欲しかった」と好評
本イベントの視聴者数は500名を越え、20を超える質問が投稿されるなど、まさに盛況だったといえるだろう。
参加者の満足度も高く、
「言語処理を実践しているものとして、考えが合致した内容をお聞きできたことに、今後への自信と期待を持つことができました。お互いへのリスペクトもあって、聞いていて心地良かったです」
「同僚にも見て欲しかったと思えるほど、ためになる内容でした」
といった感想が寄せられた。
イベント開催のきっかけとなった『BERTによる自然言語処理入門:Transformersを使った実践プログラミング』の著者に、本書の見どころや自然言語処理への思いをインタビューしている。こちらもあわせてチェックしていただけけると嬉しい。
イベント概要
- 名称:いま注目のAI、自然言語処理の実社会への活用の可能性に迫る
- 日時:2021年7月8日(木) 18時00分〜19時30分
- 会場:オンライン
- 参加費用:無料
- 定員:500名(事前申し込み制)
- 主催:ストックマーク株式会社