rinna、36億パラメータ・日本語特化型のGPT言語モデルをオープンソースで公開

このエントリーをはてなブックマークに追加

rinna株式会社は2023年5月17日、日本語に特化した36億パラメータを持つ汎用言語モデルと対話言語モデルの2種類のGPT言語モデルをオープンソースで公開した。

2018年にOpenAIから提案されたGPTは、高速な学習と大量のテキストを活用したテキスト生成に技術的進歩をもたらした。2022年に開始されたChatGPTによって更なる進化を果たし、ユーザーの指示を遂行する対話形式のタスクに応用している。しかし、公開される大規模モデルの多くは英語に特化しており、日本語モデルの選択肢は限られている。

これまで同社は13億パラメータの日本語特化GPTモデルを公開してきたが、さらに36億パラメータを持つ汎用言語モデルと対話言語モデルを新たに公開するとのこと。これらのモデルの公開により、日本語言語モデルの活用を通じた研究・開発がより発展することが期待される。

特徴は以下の通り

  • 汎用言語モデルは日本語の日本語のWikipediaC4CC-100 のオープンソースデータを学習素材に、対話言語モデルはHH-RLHFSHPFLANの一部を日本語に翻訳したデータを使用
  • 汎用言語モデルのperplexityは8.68を達成(GPTが次の単語を予測する際、単語の候補数が8.68に絞り込まれる)
  • 利用しやすい対話形式のインターフェース
  • 事前学習済みのモデルはHugging Face上で商用利用可能なMIT Licenseで公開
  • 利用者は目的に応じて2種類のモデルから最適なモデルを選択可能。更にfine-tuningやin-context learningを通じて精度向上を目指すことが可能

 

>>ニュースリリース