米Googleは、より高精度な画像生成と深いレベルの言語理解を備えた、テキストから画像への拡散モデル「Imagen」を発表した。写真のような画像や芸術作品のように加工された画像などが生成できる。
Imagenで「ビーチでサングラスと黒い革のジャケットを身に着けてスケートボードにのっている柴犬の写真」と入力して生成される画像
同社はImagenを開発する際、事前に学習した大規模言語モデルが画像合成のためのテキストエンコードに効果的であることを発見した。Imagenでもこれを利用し、言語モデルのサイズを大きくすることで、画像拡散モデルのサイズを大きくするよりも、画像が自然に見えるか、画像とテキストが合っているかという点で優れた結果を出力するという。
Imagenでテキストから画像を生成するモデルの包括的なベンチマークである「DrawBench」をテストしたところ、VQ-GAN+CLIPやLatent Diffusion Models、DALL-E 2などの最新の手法と比較して、画像の自然さとテキストに合っているかという点でより高い評価を得た。
また、画像データセットCOCO(Common Objects in Context)を用いたFID(生成した画像の品質を評価する指標)において、ImagenとDALL-E 2やCOCOで学習したその他のモデルを比較した。FIDは数値が低いほど生成した画像の品質が高いことを意味しており、Imagenは最もスコアが高い7.27を記録している。
一方で、同社はテキストからの画像生成に関しての倫理的な問題も論じている。テキストからの画像生成モデルをオープンソースにしてしまうと、悪用される危険性が高まり、社会に影響を与える可能性がある。
そのため、同社はImagenを現時点ではコードやデモを公開しないことを決定した。将来的には、制限をかけた公開と完全なオープンアクセスのリスクのバランスをとった外部化のためのフレームワークを模索する予定だとしている。