rinna株式会社は5月12日、日本語に特化した言語(テキスト)と画像の関係を表現できる事前学習言語画像モデルCLIP(Contrastive Language-Image Pre-training)とその改良版モデルCLOOBを学習し、商用利用可能な Apache-2.0 ライセンスで公開したとを発表した。
rinna社はこれまでに、日本語の自然言語処理(NLP)に特化したGPT(13億パラメータ)やBERT(1.1億パラメータ)の事前学習言語モデルを公開し、多くの研究・開発者に利用されている。
汎用言語モデルの活用の幅は広がっており、OpenAI社により開発されたCLIPは、言語と画像の関係を表現することを実現した。
今回rinna社では、日本語に特化したCLIPを学習した。また、CLIPの改良モデルであるCLOOB(Contrastive Leave One Boost)についても同様に日本語に特化した学習を実施した。これらのモデルをAIモデルライブラリであるHugging Faceに商用利用可能なApache-2.0ライセンスで公開することで、言語・画像コミュニティに還元するとしている。
CLIPは、言語(テキスト)と画像の関係を表現できる事前学習言語画像モデルだ。たとえば、猫の画像に対して、「可愛い猫の写真」と「犬が散歩している写真」の2種類のテキストが与えられた場合、前者がより画像に近いと判断できる。
CLIPの学習には、画像とその画像を説明するテキストのペアを大量に利用し、関係性の近さを学習させる。
言語と画像の関係を表現できるCLIPは、多様なタスクに対応する。たとえば、猫と犬のような複数のクラスに画像を分類する画像分類タスクや、あるテキストに対して近い画像をいくつか出力する画像検索に適用できる。
さらに、画像生成モデルと組み合わせ、テキストから画像を生成させることも可能。これは、CLIPがテキストに対する画像の類似度を出力できる特徴を活かし、画像生成モデルにその類似度が高くなるような画像を生成させることで実現できる。
また、CLIPと同時に公開するCLOOBはCLIPを改良したモデルであり、CLIPより高い性能であることが報告されている。
本モデルを公開することにより、日本語における言語・画像理解に関する研究の活発化につながることを期待しているという。
日本語CLIPの特徴は以下のとおり。
- 学習データとして、CC12Mの1200万の言語・画像ペアのオープンソースデータを日本語に翻訳し使用する。
- CLIP/CLOOBの学習には大きいバッチサイズでの学習を必要とするが、rinna社のモデルは8つのNVIDIA Tesla A 100 GPU(80GBメモリ)を用いて十分な計算機リソースで学習する。
- CLIP/CLOOBの学習には、これまでにrinna社で公開した日本語に特化したBERT(1.1億パラメータ)を利用している
学習されたCLIP/CLOOBはHugging Faceに商用利用可能なApache-2.0 Licenseで公開されている。 - CLIP/CLOOBは画像分類モデルとして学習していないにも関わらず、画像分類タスクをこなせる。今回のモデルでは、追加学習なしもzero-shot画像分類において、日本語1000クラス50000枚の画像に対し、CLOOBの上位1位の予測ラベルの正解率Top1は48.36%を達成している。これは、モデルが言語と画像の関係を理解していることを示す。
ImageNet validation setの1000クラスに対するzero-shot画像分類の結果
- 画像生成モデルと組み合わせることで、テキストから画像を生成できる。
「北極にある日本の京都」を入力したときの出力結果
「ひまわりの油絵」を入力したときの出力結果
>>ニュースリリース