rinna、日本語に特化した「GPT-2」の大規模言語モデルを無償公開

このエントリーをはてなブックマークに追加

元女子高生AI「りんな」などで知られるrinna株式会社は4月7日、製品開発のための自然言語処理(NLP)の実験過程で、日本語に特化した「GPT-2」の大規模言語モデルを構築したと発表。開発した言語モデルと研究者が自分のマシンで実験結果を再現できるトレーニングコードを「GitHub」およびNLPモデルライブラリ「HuggingFace」でオープンソースとして公開する。

言語モデルは、言語データの機械学習をもとに、会話や文章の「人間が使う言葉らしさ」を確率としてモデル化したもの。優れた言語モデルは確率を正確に推定できるものを指す。

GPT-2は、単語レベルの確率の組み合わせから、文の確率を計算する言語モデル(自己回帰言語モデル)。たとえば、「確率(吾輩は猫である)=確率(吾輩)×確率(は|吾輩)×確率(猫|吾輩,は)×確率(で|吾輩,は,猫)×確率(ある|吾輩,は,猫,で)」のような方法で推定する。この能力を使って、GPT-2は「吾輩は猫で」という接頭辞(Prefix)を与えられたとき、確率の推定から次にくる単語として「ある」を選択し、文章を自動生成できる。

【デモ1】講演の感想のコンテキストで文章生成

【デモ2】書籍の紹介のコンテキストで文章生成

今回、rinnaが公開した日本語GPT-2モデルは、一般的な日本語テキストの特徴を持つ高度な日本語文章を自動生成できるという。ユーザーや研究者は特定のテキストデータを微調整し、本モデルから独自のモデルを作成することも可能。たとえば、Prefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたときには、講演の感想や書籍の紹介など、特定のコンテキストで応答文を生成するように微調整できる。

同GPT-2モデルは、トレーニングデータとして、CC-100のオープンソースデータを使用している。また、Tesla V100 GPUを用いて、70ギガバイトの日本語テキストを約1ヵ月の長期間に渡ってトレーニングし、性能は約18 perplexity〔※1〕を達成した。rinnaによると、モデルは十分にトレーニングしており、汎用性があるという。

〔※1〕18 perplexityは、GPT-2モデルが前に与えられた単語から次の単語を予測するときに、正しいものを含む18のオプションだけを残せる性能を意味する。

rinnaの研究チームが開発した大規模な言語モデルは、すでに同社のプロダクトで使用しているという。同社は今後も、異なるテキストスタイルやデータ量を含む高精度で大規模な言語モデルの研究開発を続け、AIチャットボットの能力を高めるとのこと。また、日本語の研究コミュニティのために、これらのモデルをオープンソース化するとしている。

今回公開したのはGPT2-mediumと定義される中規模サイズのモデルである。今後、rinnaはパフォーマンスとコストのトレードオフに基づき、ユーザーや研究者が最善の選択をできるように、異なるサイズのモデルも公開予定という。異なるデータでトレーニングした新しいモデルの公開も計画しているとのこと。

>>ニュースリリース

元女子高生AI「りんな」開発チームが新会社「ペットのように扱われたら失敗」

rinnaは2020年8月21日に、日本マイクロソフト株式会社から独立を果たした。独立時の記者発表会の様子が気になる人は、以下の記事をチェックしてほしい。