rinna、日本語に特化した「GPT-2」「BERT」事前学習モデルを無償公開 75ギガバイトのデータを最大45日間で学習

このエントリーをはてなブックマークに追加

元女子高生AI「りんな」などで知られるrinna株式会社は8月25日、製品開発のための実験過程で、日本語に特化した「GPT-2」と「BERT」の事前学習モデルを開発したと発表。

日本語の自然言語処理(NLP)の研究・開発コミュニティに貢献するために、開発した事前学習モデルとその学習を再現するためのソースコードを、GitHubおよびNLPモデルライブラリHuggingFaceにMITライセンスのオープンソースとして公開した。

モデルサイズが異なる2つのGPT-2を公開

GPT-2は予測したい単語より前の単語を考慮して、次の単語を予測する言語モデルである。たとえば、「吾輩」「は」を考慮して「猫」を予測してくれる。

rinnaは2021年4月、日本語に特化した中規模サイズのGPT-2(GPT2-medium/3.36億パラメータ)を公開した。当時、プレスリリースには大きな反響があり、モデルを実際に使用した技術ブログも存在するという。

今回、rinnaはモデルサイズが異なる2つのGPT-2(GPT2-small/1.10億パラメータ、GPT2-xsmall/0.37億パラメータ)を公開する。GPT2-mediumも学習データと学習時間を増やし、より高性能なモデルにアップデートした。モデルサイズの違いはパフォーマンスとコストのトレードオフであり、研究者や開発者は最善なモデルを選択可能になる。

日本語GPT-2は、一般的な日本語テキストの特徴を有した高度な日本語文章を自動生成できる。たとえば、「本日はご参加ありがとうございました。誰も到達していない人工知能の高みへ、ともに」という講演後のメールを想定した文章をGPT-2に入力として続きの文章を自動生成すると、入力文章の文脈を考慮した文章が生成される。

「生命、宇宙、そして万物についての究極の疑問の答えは」と打ち込んだ場合(発表会でのデモの様子)

夏目漱石の小説を追加学習し、小説の文章をアシスタントした場合(発表会でのデモの様子)

BERTの改良モデルRoBERTaも公開

また、BERTは予測したい単語の前の単語だけでなく、後の単語も考慮して予測する言語モデルである。たとえば、前の単語「吾輩」「は」と後ろの単語「で」「ある」を考慮して「猫」を予測してくれる。

今回、rinnaはBERTを改良したモデルで、BERTより高い性能が報告されている「RoBERTa/1.10億パラメータ」を公開した。

RoBERTaを用いて「4年に1度、[MASK]は開催される。」の[MASK]部分を予測すると、オリンピックやワールドカップといった4年に1度開催されるイベントが上位に予測される。

文章生成タスクでは文章を1単語ずつ順次予測するGPT-2がよく用いられるが、文章分類タスクなどの文章全体を考慮したタスクではBERTがよく用いられる。そのほか、BERTは質問応答タスクや固有表現認識タスクなど多様なタスクにも適用できる。

75ギガバイトの日本語テキストを最大45日間で学習

rinnaの日本語事前学習モデルは、学習データとして、日本語CC-100と日本語Wikipediaの計75ギガバイトのオープンソースデータを使用している。

8つのNVIDIA Tesla V100 GPUを用いて、75ギガバイトの日本語テキストを最大45日間かけて学習した。その結果、すべてのモデルにおいて、十分に学習した汎用性があるモデルに仕上げたという。

rinna株式会社 Applied Scientist シーン誠氏

rinna株式会社 Applied Scientist シーン誠氏は「事前学習モデルを用意するためには、高性能なパフォーマンスのモデルを構築するための専門的な知識に加え、大規模データを長時間計算するので莫大(ばくだい)な計算機能力が必要になります。とても容易ではありません」と説明する。

「自社調べではありますが、ほかのオープンソースのモデルでは学習データは多くて20ギガバイトほどです。(rinnaによる学習データは)その3倍のデータ量です。rinnaは75ギガバイトの日本語版の大規模なデータを最大45日間かけて十分に学習しました。その結果、すべてのモデルに関して十分に学習した高性能な学習モデルになっています」

利用者は日本語CC-100とWikipediaのオープンソースデータを用いることで、自分のマシンでrinnaの結果を再現できる。気になる人はGitHubHuggingFaceを確認してほしい。