画像生成AI「Stable Diffusion」の日本語版 rinna社が提供開始

Japanese Stable Diffusion
このエントリーをはてなブックマークに追加

AIキャラクターの開発を手がけるrinna株式会社は9月9日、日本語に特化した画像生成モデル「Japanese Stable Diffusion」を公開し、同モデルを用いた画像生成サービスの提供を開始したと発表した。

話題のAI画像生成モデル

ここ最近、DALL-E2、Midjourney、Stable DiffusionなどのAI画像生成モデルが話題となっている。これらの画像生成AIは英語をもとに画像を生成しており、日本語には対応していないため、英語に翻訳したテキストプロントが必要となる。しかし、固有名詞や和製英語などの日本語特有の表現は翻訳が難しく、画像生成に反映できない。そこで、rinna社は画像生成モデルStable Diffusionを用いて日本語に特化した「Japanese Stable Diffusion」を開発した。このモデルはHugging FaceとGithubで公開されている。
Hugging Face
Github

日本語に特化した画像生成AI

「Japanses Stable Diffusion」は、学習データとして約1億枚の日本語キャプション付き画像を利用したという。

また、日本語のテキストプロンプトに対応させるためStability AI社が公開したStable Diffusionの生成モデルパラメータを固定し、テキストエンコーダーのみ日本語キャプション付き画像を用いて追加学習を実施。その後、テキストエンコーダーと生成モデルのパラメータを同時に更新する追加学習により、日本語の画像生成に最適化したという。

AIキャラクターSNSやTwitterのリプライなどで画像生成を体験可能

rinnaが運営するAIキャラクターSNS「キャラる」でJapanese Stable Diffusion を体験できる。アプリ内で「お絵描き上手」などのバッジをAIキャラクターに付与することで、AIキャラクターが画像生成を行う。また、「AIりんな」の公式ツイッターでは、特定のツイートにリプライを送ることで生成された画像が返信される。

開発者向けのAPIサイト「rinna Developers」では、同モデルを使用したAPI「Text To image API v2」が公開されており、Japanese Stable Diffusionの画像生成機能をアプリケーションなどに実装することができる。

日本語から作成された画像サンプル

日本語のテキストプロンプトから生成された画像のサンプル「サラリーマン 油絵」 「サラリーマン 油絵」

日本語のテキストプロンプトから生成された画像のサンプル「夕暮れの神社の夏祭りを描いた水彩画」「夕暮れの神社の夏祭りを描いた水彩画」

日本語のテキストプロンプトから生成された画像のサンプル「ハンバーガー 浮世絵」 「ハンバーガー 浮世絵」 

>>ニュースリリース