学習済みの日本語版BERTモデルがオープンソースで公開、260万以上のWebページを活用

このエントリーをはてなブックマークに追加


株式会社Laboro.AIは4月17日、アルゴリズムBERTを独自に事前学習させた「Laboro.AI日本語版BERTモデル」をオープンソースとして公開した。

Laboro.AI日本語版BERTモデルには、約4300のWebサイトから260万以上のWebページにおけるテキスト情報を学習させている。オープンソースではあるものの、非商用目的として公開している。そのため、商用利用を希望の際は、Laboro.AIに問い合わせが必要だ。

>> Laboro.AIエンジニアコラム
>> プレスリリース

260万以上のWebページのテキストを学習させている

昨今のAIにおける自然言語処理において注目を集めているのが「BERT」だ。BERTはGoogleが2018年に発表した自然言語処理アルゴリズムで、文章における文脈を理解できるなど、従来のものと比較しても大きなブレイクスルーを巻き起こしたと言われている。


【PR】
sponsored by 株式会社 TACT

BERTについての詳細は、学術研究論文「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」などを確認するといいだろう。
https://arxiv.org/pdf/1810.04805.pdf

さて、今回Laboro.AIがオープンソースとして公開したLaboro.AI日本語版BERTモデルは、独自に収集したWebテキスト情報をもとに事前に学習してある。

学習させたのは、インターネット上で公開されているニュースサイトやブログなど、フォーマルなものからインフォーマルなサイトまで多岐にわたる。その数は合計4307のWebサイト、ページ数にして260万5280ページに掲載されているテキスト情報を収集して学習させた。

すでにGoogleからは、13GBぶんの英語文献データを学習させたオリジナルの英語版BERTが公開されている。今回オープンソースで公開したLaboro.AI日本語版BERTモデルは、英語版とほぼ同量の12GBに相当する日本語情報データで学習させている。

非商用限定だが活用の幅は広い

Laboro.AIのプレスリリースでは、公開したLaboro.AI日本語版BERTモデルの活用シーンをいくつか例に挙げている。
・社内に大量に蓄積された文書の整理や分類
・専門的なキーワードやそれに類似するワードを含む文書、メールなどテキストデータの分類
・チャットボットなど、テキスト情報をベースにしたQ&Aシステムへの応用
・スマートスピーカー等、声による入力・出力など、音声技術への応用

Laboro.AIのエンジニアコラムでは、Laboro.AI日本語版BERTモデルに関する精度評価などがまとめられているので、実際に利用する前に目を通しておくのがオススメだ。

なお、本稿冒頭に記載したように、Laboro.AI日本語版BERTモデルは非商用目的に限って無料で公開されている。また、利用やダウンロードに関しては、Laboro.AIのサイトで確認できる。

商用目的での利用を希望する際は、Laboro.AIの問い合わせフォームから連絡が必要だ。

>> Laboro.AIエンジニアコラム
>> プレスリリース
>> Laboro.AI問い合わせフォーム