2019年3月17~21日まで開催されたNVIDIA’s GPU Technology Conference(GTC)にて、「GauGAN」が発表されました。ラフに描いた落書きを、リアルタイムで本物のような写真に変換するデモ動画が話題になりました。
驚くことに岩を海のなかに描くと、海に映る影までも自動で描画します。Adobeのようなツールを使用しなくても、ここまでの画像が簡単に作れるようになりました。
一体どのような仕組みでスケッチから画像に変換しているのか? NVIDIAがこれまで取り組んできた類似する技術にも触れながら、画像変換技術について解説します。
そもそも画像変換とは?
画像変換技術には「pix2pix」と呼ばれる手法があります。
pix2pixとは、画像と対になるイラストや線画を用意することで、ある条件下における画像から画像の変換を行う、Conditional GAN(cGAN)をもとにした手法です。
pix2pixは、Conditional GANをベースとした2つのニューラルネットワークから成り立ちます。
1つは線画やイラストから本物そっくりの画像を生成するジェネレータ(G)。
もう1つは、入力画像が
- ジェネレータによって生成された画像なのか
- 本物の画像(y)なのか
を判別するディスクリミネータ(D)を使用します。
pix2pixではジェネレータとディスクリミネータを交互に学習させることで、本物のような画像を生成できます。
さらに高解像度の「pix2pixHD」
pix2pixよりもさらに高解像度の画像を生成できるように改良されたのが、「pix2pixHD」です。pix2pixHDが生成する画像は、2048×1024の解像度です。加えて、インタラクティブな画像編集も可能になりました。
pix2pixHDでは、Semantic Mapと呼ばれる画像内の物体に、どんな機能をもつ物体なのかをラベル付けしたマップ画像を入力として、本物のような画像を生成します。
うえの動画では、物体の位置を変更したり、色や形を変えても、なお自然な仕上がりの画像が生成されています。
GauGANが注目される理由
pix2pixHDの映像を見ると、すでにリアルタイムに編集する技術が出来上がっているように見えます。
ではなぜ、「GauGAN」が特に注目されたのか? それはpix2pixHDに比べ、より本物に近い画像が生成できるようになったためです。
pix2pixHDでは、画像生成の際に、ラベル付けされたSemantic Mapからラベル情報が抜け落ちてしまうという問題がありました。ラベル情報が抜け落ちてしまうと、画像中の詳細な領域を表現できなくなります。
GauGANでは、ラベル情報が抜け落ちないように内部のネットワークモデルが改良されました。それにより、詳細な領域を表現できない問題が解決されています。
pix2pixHDと同じくGauGANでは、Semantic Map内の物体の位置を変更したり、物体そのものを入れ替えたりすることで、生成する画像をリアルタイムで編集できます。GauGANは画像生成する際、画像の色味や明るさなども変更可能になりました。
GauGANにより、
- ラフなスケッチを描くだけでゲームの世界を簡単に描画
- アニメの背景画像を簡単に作成
といったことが可能になりました。単に画像のなかに新たな物体を合成するだけではなく、周囲の色合いや明るさ、影までも自然に合成できます。大量の絵や画像を作り出すクリエイターの手助けになるのではないでしょうか。
実用化に向けさらに精度を上げて研究・技術開発に取り組むNVIDIAの動きに今後も注目です。