OpenAIが、入力された画像やテキストから3Dモデルを自動生成する新たなAI「Shap-E」を発表した。このAIはオープンソースで開発されており、誰でも無料で利用できる。
「Shap-E」には、テキストからの生成だけでなく、画像のみから3Dモデルを生成できる「Image to 3D」モードが搭載されている。同社が公開しているデモサイトでは、ユーザーはプロンプト入力後に数十秒待つだけで3Dモデルが出力される。生成された3DモデルはglTF(GL Transmission Format)形式でダウンロード可能だ。また、3Dモデルの「Seed(シード値)」「Guidance scale(ガイダンススケール)」「Number of inference steps(ステップ数)」の3つのパラメーターは、ユーザーが自由に変更できる。
OpenAIは過去にも色のついた点を集めて3Dモデルを生成する「Point-E」を開発し、オープンソースとして提供してきた。今回の「Shap-E」では、多様な角度から撮影した写真から3Dモデルを生成するNeRF(Neural Radiance Fields)が導入されており、より柔軟な表現が可能となっている。
ただし「Shap-E」は「Point-E」とは異なり、適切なポリゴン数の設定や複数の属性の割り当てが難しく、より高い演算性能が求められる可能性があると指摘されている。この問題は学習用のデータが少ないことが原因であるとみられ、同社はより大きなデータセットを用いて学習を進めることで性能の向上を見込んでいるとのこと。