文章から3DモデルをAIが作成する「DreamFusion」 米Googleら開発

このエントリーをはてなブックマークに追加

米Google Researchと米UC Berkeleyの研究チームは9月29日、テキストから3Dオブジェクトを生成するシステムを提案した論文「DreamFusion: Text-to-3D using 2D Diffusion」を発表した。

近年、「Stable Diffusion」「Midjourney」や「DALL・E」を例とした、数十億の画像とテキストのペアで学習させた拡散モデルによって、テキストから画像への合成は飛躍的に進歩している。今回の研究では、事前に学習したテキストから2次元の画像への拡散モデル「Imagen」を用いて生成した画像をもとに、テキストから3次元への合成を実現する。


「着物を着たリスの一眼レフ写真」の3Dモデル

DreamFusionは、「NeRF」という2Dの画像から3Dのシーンに変換できるAIを用いて3Dモデルを作成する。NeRFは物体・人の正面や側面、背面を撮影した数枚の画像から光の当たり方などを学習し、撮影していない角度からの画像を生成できる。また、同グループが提案した「Score Distillation Sampling (SDS)」によって、3Dモデルは最適化され、形状が向上するという。

その結果、DreamFusionは高品質の表面形状や深度を持ち、あらゆる角度から見たり、照明を当てたりできる3Dモデルを作成できた。公式サイトには、実際に作成された3Dモデルのサンプルがあり、任意の角度で3Dモデルを見れるようになっている。

>>DreamFusion