株式会社EmbodyMeは10月26日、AIで音声を自分の外見に変換して、家事や運動などをしながら、どんな状況でもオンライン会議などができる「xpression camera Voice2Face」をリリースしたことを発表した。
オンライン会議などにおける課題
昨今のコロナ禍により、仕事や診療、教育、イベントなどの社会的な活動の多くで、ビデオチャットなどの動画コミュニケーションが急速に普及している。一方で、オンラインでは「対面に比べたコミュニケーションのとりづらさ」を感じることもあり、重要な課題となっている。
対面と比べ、ビデオチャットは常に自分の顔や視線の向きをカメラに向け、画面の中の人と目線を合わせなければならない。また、セルフビューが表示されているために他の人から常に見られていると感じてしまう緊張感から、心理的・身体的な疲労を感じるようだ。
そこで同社は、対面が優れている根本の理由に立ち返るとともに、対面とは違ったバーチャルならではの切り口で解決するため、「xpression camera」を開発した。カメラで顔の表情や体の動きを読みとり、自分の外見をAIで置き換えることで、ビデオ会議やライブ配信などにおいて、どう見られているか気にする必要なくコミュニケーションができる。
xpression camera Voice2Faceの特徴
「xpression camera Voice2Face」は、画像生成AI「Stable Diffusion」を利用した映像生成AI。自分の写真など好きな画像を一枚用意すると、自分の表情や体の動きに応じてリアルタイムに映像を生成できる。今回のリリースにより、カメラを使わずに音声のみでもリアルタイムで自分の映像を生成できるようになったため、リラックスした体勢や自由な環境でコミュニケーションが可能となった。
また、ボタンをクリックするだけで、対面のコミュニケーションではできないデフォルメされた動きも取り入れた豊かな感情表現を、画面上の自分の映像やアバターを通じて実現できる。これにより、動画コミュニケーションにこれまでなかった新たな非言語的な感情表現をもたらし、 対面を超えたまったく新しいコミュニケーションを生み出す。
テキストから画像を生成する技術のみでは、イラストや漫画、アートといった市場にとどまるが、本サービスを使うことで映画やテレビ、アニメ、ライブ配信、ビデオチャットといった映像全般の幅広い市場に可能性を広げられる。同社はこうした技術をさらに発展させ、画像や映像の生成AIという大きな変革において、技術・文化で世界を牽引していくという。
>>ニュースリリース