学術&研究
Microsoftのトーキングヘッド生成AI「VASA-1」 1枚の静止画と音声データで、その人物があたかも喋っているような動画を生成
Microsoft Research Asia は2024年4月16日、AIモデル「VASA-1」が、1枚の静止画と音声データから、その人が話しているかのような動画をリアルタイムで生成する技術を[発表]{target=“_blank”}した。 VASA-1は、単一の画像と音声クリップを用いて、話している人物のリップシンクや表情、頭の動きを含むリアルなビデオを作成可能だ。 このAIは、特にリアルタイムアプリケーションにおいてその能力を発揮する。オンラインモードでは、512x512の解像度で最大40fpsのフレームレートを達成し、170ミリ秒の極めて低い遅延で動作する。また、オフラインバッチ処理モードではさらに高速で45fpsを実現するという。 VASA-1は、表情の細かいニュアンスや自然な頭の動きを捉えることができ、話者の感情や意図をよりリアルに伝えるという。さらに、このモデルは外見、3D頭部ポーズ、顔の動きを分離して扱え、高度なカスタマイズを可能にする。 ### Controllability of generation 視線の方向、頭の距離、感情オフセットなどのオプションの信号を条件入力した例 ![vasa1 gen controll.jpg] :::small 画像の出典:[Microsoft Reserch]{target=“_blank”} ::: ### Out-of-distribution generalization 学習分布から外れた写真や音声入力を扱う能力を示す例(芸術的な写真、歌声、英語以外の音声)データはトレーニングセットには存在しないという ![vasa1 Out-of-distribution generalization.jpg] :::small 画像の出典:[Microsoft Reserch]{target=“_blank”} ::: Microsoftは、この技術が誤用されることを防ぐため、製品化やAPIのリリースは行わず、研究デモンストレーションに留める方針だ。この技術の責任ある使用を確実にするため、適切な規制が整うまでオンラインデモや関連する実装の詳細を公開しないと明示している。 :::box [関連記事:Alibaba 音声データを与えると、1枚の人物画がリアルに喋り歌い出す 動画生成AI「EMO」を発表] ::: :::box [関連記事:Google Research、1枚の画像から話す人物の動画を生成するAI「VLOGGER」を発表] :::