「日本語処理にはまだまだ可能性が隠れている」NVIDIAが見据える自然言語処理の今と未来

このエントリーをはてなブックマークに追加

開発者カンファレンスである「NVIDIA GTC(以下GTC)」が今年も3月21日から24日の期間で開催される。GTCでは900以上のセッションが行われ、自然言語処理(NLP)関連のセッションも多い。今やYouTubeの字幕の自動生成や、チャットボットなど、さまざまな分野で活用される自然言語処理の技術。今回はGTCの開催に先立ち、NVIDIAのエンタープライズ事業部 シニア マネージャーの永田聡美氏に、自然言語処理の現状や課題、NVIDIAにとっての自然言語処理の位置づけなどについて話を聞いた。

永田聡美氏
エンタープライズ事業部 シニアマネージャー

ソースネクストにてソフトウェア製品企画を担当し、多数の製品をリリース。その後 ソニーにて非接触IC技術の事業開発(国内およびアジア地域)に従事。2015年よりNVIDIAにて、学術計算基盤(スーパーコンピュータ等)の事業を統括。日々多くの研究や開発者と接し、GPU計算基盤を先端科学に活かすための提案活動を行っている。 同時にNVIDIAスタートアップ支援プログラム(Inception Program)を担当し、技術を事業化するための支援にも注力している。

日本のDXは「トランスフォーメーション」まで意識が向いていない?

コロナ禍において、DX(デジタルトランスフォーメーション)の動きは加速した。永田氏はこの動きをどう見ているのか?

ーー永田

「各国でDXの取り組みはなされていますが、海外では主にデータを活用して企業そのものを革新するために何に投資すべきか?という視点での議論が多いのに比べ、日本ではまだまだペーパーレスやデータ化などができておらず、まずはそこからの企業が多い印象です」

数年前にAIがバズワードとなり、とりあえずAIに学習させるデータを集めるためのデジタル化を進めたものの、気がつけば目的を見失ってしまった。

そこから企業自体をトランスフォーメーションするためには何が不足しているのか?という議論は少なく、デジタル化やクラウド移行などを行っただけで満足している企業もあり、進んでいる企業と両極端になっている印象、と永田氏はいう。

大規模言語モデルにはドメイン特化のデータと、専門知識を持った人材が不可欠

そんなDXの動きの中でも、自然言語処理は画像認識と並んでホットな領域だ。人間がコミュニケーションを通じて仕事を行う以上、極めて身近である言語をAIで処理して効率化しよう、というのはたしかに思いつきやすい。NVIDIAとして、自然言語処理の領域をどう見ているのか。

ーー永田

「たしかに、自然言語は身近なこともあり、DXしよう!となったときに思いつきやすい分野ではあります。ですが、実用化するとなると、ドメインに特化したデータがなければスマートな回答を返すことが難しい場合もあります。取り組まれている企業は、本当に必要なデータがあるのか?という部分で壁にぶつかりやすいですね」

NVIDIAは自社で自然言語処理関連のサービス化を行っているわけではない。あくまでGPUなどのハードウェアを基軸としつつ、アプリケーション化をサポートするツールやミドルウェアなどの領域で、自然言語処理の開発者や研究者をサポートしているという。

ーー永田

「精度が良い大規模言語モデルを作るには、2つのポイントが必要となります。ひとつは先程申し上げたドメイン特化のデータを大量に、もうひとつはハードウェアを効率的に利用し開発するための、ソフトウェアエンジニアリングの理論を持った人材です。単純に計算リソースが豊富であれば言語モデルの構築が可能なわけではありません。

この2つのポイントがそろえばスタートアップや中小企業でも精度の良い言語モデルを作成できている例もありますし、逆にそろわなければ大企業でも難しいと思います」

それこそ、どのようにハードウェアをうまく利用して性能を出せるかが一種の学問になっているほど、専門知識が求められる領域だと永田氏は語る。

自然言語処理が直面する「モデルが果てしなく巨大化する」という課題

一口に自然言語処理といっても、さまざまな活用方法と、それぞれに応じた必要なパイプラインが存在する。チャットボットであればテキストでの質問をテキストで返すText-to-Textであるし、コールセンターであれば音声認識を行いテキスト化、その意味理解を挟んだ後に音声で返すという、マルチモーダルなモデルとなる。

ーー永田

「マルチモーダルな形にすればするほど、モデルの構造は複雑化します。それぞれのモーダルの間をつなぐ、パイプラインをうまく設計できる人材は希少です。我々は、学習済みの言語モデルそのものを提供するだけでなく、パイプラインの間をつなぐ、ミドルウェアなどをSDKとして提供しているというわけです」

もうひとつ問題になってくるのが、言語モデルの果てしない巨大化だ。たとえば、人間と比べても遜色ない文章を返すと話題になったOpenAIが発表しているGPT-3は、1,750億個のパラメータを持つという。

ーー永田

「OpenAIの研究者らによると、2012年以降最新のAIモデルを訓練する際に必要とされるコンピューターの計算量が、平均3.4ヶ月で2倍に増え、2012年〜2018年の間に30万倍に達しています。それから現在までの3年の間に、言語モデルはさらに飛躍的に進化し、同社の開発する言語モデルであるGPT-3は、ひとつ前のGPT-2に対して、100倍以上となる1,750億のパラメーターを備えています。さらに、Microsoft社の DeepSpeedとNVIDIAの Megatronを利用した『Megatron-Turing Natural Language Generation(MT-NLG)』のパラメーター数は、さらにGPT-3の約3倍となる約5300億個にもなっており、補完や予測、読解、常識推論、自然言語推論、語義の曖昧性解消といったタスクの精度を飛躍的に高めています。言語モデルが巨大になるほど、求められるハードウェアの計算能力も上がっていき、そのアーキテクチャも比例して複雑化していきます。

つまり、言語モデルが巨大化し、ハードウェア側も最適な効率で計算する研究が進み、その繰り返しで進歩しているんです。NVIDIAではハードウェアだけでなく、そのような大規模言語モデルを効率的にトレーニングできるNeMo Megatronという分散学習フレームワークも提供しています」

日本の自然言語処理は「まだまだ進化する」余地がある

日本にはまだまだ自然言語処理が研究・活用される余地が残っている、と永田氏はいう。

ーー永田

「日本は特に言語モデルが歓迎される地域だとNVIDIAは思っています。日本語の特殊性から、たとえば自動翻訳などはまだまだ改善の余地が大いにあります。かといって日本人は義務教育に始まり、英語の勉強に多くの時間を費やしている日本人は多いと思いますが、目標のレベルに達していないと感じている方も多いのではないでしょうか。非英語圏だからこそ、自動翻訳の需要は高いと思いますし、その需要に大きく期待しています。

そしてNVIDIAは、言語モデルが最大限の性能を出すために、どのようなアーキテクチャが良いのかを日夜考えています。そのくらい言語モデルは重要で、今後NVIDIAが提供するハードウェアのあり方にも大きな影響を与えるもの、と位置づけています。

一方で、自動翻訳の実現に必要な大規模言語モデルの開発は我々だけではできません。我々はサービスプロバイダーではないので、パートナーやドメインデータを持つ企業など、さまざまなステークホルダーと協力しつつ、新しい自然言語ソリューションを作っていけたらと思っています」

日本ではまだまだAIの活用が遅れており、それ以前のペーパーレスやデータ化といった取り組みのフェーズが多いと言われるが、こと自然言語処理の分野では独自の需要が存在するため、日本は世界から一歩リードしている数少ない国である、と永田氏は目を輝かせる。

GTCでは、NTT、NTTデータやNTTレゾナント、LINEといった著名企業による自然言語処理のセッションが用意されている。興味を持った人は申し込んでみてはいかがだろうか。