自然言語処理モデル「BERT」の日本語版事前学習モデルが無償公開 商用利用も可

このエントリーをはてなブックマークに追加

株式会社インフォマティクスは4月6日、ディープラーニング(深層学習)を用いた言語モデル「RoBERTa(A Robustly Optimized BERT Pretraining Approach)」の日本語版事前学習モデルを公開したと発表した。 ライセンスはApache 2.0で商用・非商用を問わず利用できる。

同社はこれまで、画像処理や自然言語処理、時系列解析など、さまざまなAI(人工知能)・機械学習技術を使ったソリューションを顧客に提供してきた。 今回、同社が持つ技術力の認知をより広めることと、社会貢献の一環として、同社が所有するAI・機械学習技術の中から、自然言語処理に関する技術の一部を公開した。

一般的なAIを用いた自然言語モデルは、対象言語を理解する際、大量のデータと長時間の学習が必要となる。一方、個々の問題の学習は必要なデータ量も少なく、学習も比較的短時間で済む。

同社が公開した「RoBERTa」は、2019年に米Facebook AI Research社(現在の米Meta AI Research社)が公開したモデル。特定の問題に特化せず汎用性が高いため、さまざまな自然言語処理システムを効率的に実現できる。

また、本モデルは無償のオープンソースソフトウェアのため、少ない学習時間とコストでの導入が可能だ。同社は今後、より発展的なモデルの公開も予定している。

>>ニュースリリース