学術&研究

学術&研究
2024/4/27 [SAT]
Microsoftのトーキングヘッド生成AI「VASA-1」 1枚の静止画と音声データで、その人物があたかも喋っているような動画を生成のサムネイル画像

Microsoftのトーキングヘッド生成AI「VASA-1」 1枚の静止画と音声データで、その人物があたかも喋っているような動画を生成

Microsoft Research Asia は2024年4月16日、AIモデル「VASA-1」が、1枚の静止画と音声データから、その人が話しているかのような動画をリアルタイムで生成する技術を[発表]{target=“_blank”}した。 VASA-1は、単一の画像と音声クリップを用いて、話している人物のリップシンクや表情、頭の動きを含むリアルなビデオを作成可能だ。 このAIは、特にリアルタイムアプリケーションにおいてその能力を発揮する。オンラインモードでは、512x512の解像度で最大40fpsのフレームレートを達成し、170ミリ秒の極めて低い遅延で動作する。また、オフラインバッチ処理モードではさらに高速で45fpsを実現するという。 VASA-1は、表情の細かいニュアンスや自然な頭の動きを捉えることができ、話者の感情や意図をよりリアルに伝えるという。さらに、このモデルは外見、3D頭部ポーズ、顔の動きを分離して扱え、高度なカスタマイズを可能にする。 ### Controllability of generation 視線の方向、頭の距離、感情オフセットなどのオプションの信号を条件入力した例 ![vasa1 gen controll.jpg] :::small 画像の出典:[Microsoft Reserch]{target=“_blank”} ::: ### Out-of-distribution generalization 学習分布から外れた写真や音声入力を扱う能力を示す例(芸術的な写真、歌声、英語以外の音声)データはトレーニングセットには存在しないという ![vasa1 Out-of-distribution generalization.jpg] :::small 画像の出典:[Microsoft Reserch]{target=“_blank”} ::: Microsoftは、この技術が誤用されることを防ぐため、製品化やAPIのリリースは行わず、研究デモンストレーションに留める方針だ。この技術の責任ある使用を確実にするため、適切な規制が整うまでオンラインデモや関連する実装の詳細を公開しないと明示している。 :::box [関連記事:Alibaba 音声データを与えると、1枚の人物画がリアルに喋り歌い出す 動画生成AI「EMO」を発表] ::: :::box [関連記事:Google Research、1枚の画像から話す人物の動画を生成するAI「VLOGGER」を発表] :::

学術&研究
2024/4/26 [FRI]
Googleの研究チーム開発の新技術「Infini-attention」無限のテキスト処理を実現ーー長大な文脈を踏まえた濃い内容の応答を可能にのサムネイル画像

Googleの研究チーム開発の新技術「Infini-attention」無限のテキスト処理を実現ーー長大な文脈を踏まえた濃い内容の応答を可能に

Google
論文
学術&研究
2024/4/25 [THU]
国内初、AIが執刀中の外科医の視覚をリアルタイム支援するプログラム医療機器「Eureka α」の薬事承認を取得のサムネイル画像

国内初、AIが執刀中の外科医の視覚をリアルタイム支援するプログラム医療機器「Eureka α」の薬事承認を取得

国内企業事例
学術&研究
2024/4/25 [THU]
スマートグラスを超低電力で動かせるようになる「AIソナー技術」をコーネル大研究チームが開発 反響する音声を拾いAIが表情や視線を推測するのサムネイル画像

スマートグラスを超低電力で動かせるようになる「AIソナー技術」をコーネル大研究チームが開発 反響する音声を拾いAIが表情や視線を推測する

アメリカ
論文
学術&研究
2024/4/20 [SAT]
ボストン・ダイナミクスのヒト型ロボ「Atlas」油圧式が引退サヨナラ動画発表 翌日「新型Atlas」の動画公開のサムネイル画像

ボストン・ダイナミクスのヒト型ロボ「Atlas」油圧式が引退サヨナラ動画発表 翌日「新型Atlas」の動画公開

ロボティクス
学術&研究
2024/4/19 [FRI]
AppleがスマートフォンのUI画面を認識できるマルチモーダルLLM「Ferret-UI」に関する論文を発表のサムネイル画像

AppleがスマートフォンのUI画面を認識できるマルチモーダルLLM「Ferret-UI」に関する論文を発表

マルチモーダルAI
学術&研究
2024/4/16 [TUE]
イーロンマスク率いるニューラリンクのライバル会社「シンクロン」が脳インプラント臨床試験の患者募集を始めるのサムネイル画像

イーロンマスク率いるニューラリンクのライバル会社「シンクロン」が脳インプラント臨床試験の患者募集を始める

イーロン・マスク
アメリカ
学術&研究
2024/4/14 [SUN]
「光る君へ」をAIで紐解く 大阪工業大学が『源氏物語』をAIで学習するシステム「おしゃべり源氏物語」を開発のサムネイル画像

「光る君へ」をAIで紐解く 大阪工業大学が『源氏物語』をAIで学習するシステム「おしゃべり源氏物語」を開発

学術&研究
2024/4/13 [SAT]
Anthropicの研究論文:LLMが訓練された安全策を回避する「脱獄」技術の発表 「今のうちに取り組むべき課題」のサムネイル画像

Anthropicの研究論文:LLMが訓練された安全策を回避する「脱獄」技術の発表 「今のうちに取り組むべき課題」

サイバーセキュリティ
論文
学術&研究
2024/4/12 [FRI]
Apple 次世代Siriか?音声アシスタントが画面上のコンテキストを「見て」理解できるAI「ReALM」を発表のサムネイル画像

Apple 次世代Siriか?音声アシスタントが画面上のコンテキストを「見て」理解できるAI「ReALM」を発表

Apple
論文
学術&研究
2024/4/6 [SAT]
中国が世界のAIトップ研究者の半数を輩出していることが明らかに 米シンクタンクのグローバルAIタレントトラッカー2.0の最新調査のサムネイル画像

中国が世界のAIトップ研究者の半数を輩出していることが明らかに 米シンクタンクのグローバルAIタレントトラッカー2.0の最新調査

学術&研究
2024/4/1 [MON]
Google Research、1枚の画像から話す人物の動画を生成するAI「VLOGGER」を発表のサムネイル画像

Google Research、1枚の画像から話す人物の動画を生成するAI「VLOGGER」を発表

Google
論文
学術&研究
2024/3/30 [SAT]
「Soraのようなモデルを完全オープンソースで」シンガポールのAI企業 HPC-AI Technology が「Open-Sora 1.0」をリリース のサムネイル画像

「Soraのようなモデルを完全オープンソースで」シンガポールのAI企業 HPC-AI Technology が「Open-Sora 1.0」をリリース

アクセスランキング
中国の裁判所、偽ウルトラマン画像の生成AI事業者に著作権侵害で20万円の賠償命令ーー AI生成コンテンツの著作権侵害に関する中国初の裁判
ファミリーマートが生成AI導入で関連業務時間を約50%削減と発表 会社全体でAI活用を推進
LoRA(ローラ)とは|今年注目の画像生成AI (Stable Diffusion) のファインチューニングを試してみた
4
賞金総額は20万ドル以上 クリエータープラットフォームFanvueがAI美人コンテスト「Miss AI」開催
5
自動作曲ができる音楽生成AI「Udio」パブリックベータ版公開 誰でも無料で月1200曲まで高品質な楽曲を生成できる
Ledge.ai EXPO 2024 Summer rectangle
FOLLOW US
各種SNSでも最新情報をお届けしております