株式会社サイバーエージェントは2023年5月17日、最大68億パラメータの日本語LLM(Large Language Model、大規模言語モデル)を一般公開したと発表した。
同モデルはHugging Face Hubで公開されている。
WikipediaやCommon Crawlなどのオープンな日本語データで学習されており、商用利用可能なCC BY-SA 4.0ライセンスで提供される。本モデルは2023年5月17日時点で、日本国内における現行の公開モデルにおいて最大級の規模となるという。
直近ではOpenAIの「ChatGPT」を始めとする大規模言語モデル(LLM)が急速な進化を遂げており、ビジネス活用も進んでいるが、既存のLLMのほとんどは英語を中心に学習されているため、日本語および日本文化に強いLLMは少ない状況だ。
同社は、本モデルをベースとしてチューニングを行うことで、対話型AIなどの開発も可能としており、日本語の自然言語処理に関する最先端の研究開発に取り組みが進むことを期待しているとした。また、LLMを活用したビジネス開発に携わるエンジニアの新規採用を実施し、体制強化に努める。
同社は5月12日、日本語特化型の大規模言語モデルを開発したと発表しており、今回の公開発表はその続報に当たる。すでに同社が提供するAIを活用した広告クリエイティブ制作領域のサービスにおいてすでに活用を始めているという。