学術&研究

1~13 / 595件

学術&研究
2025/12/21 [SUN]
Meta、音声分離AI「SAM Audio」公開──テキスト・映像・時間指定で任意の音を切り出しのサムネイル画像

Meta、音声分離AI「SAM Audio」公開──テキスト・映像・時間指定で任意の音を切り出し

米Metaは2025年12月16日、複雑な音声データから特定の音を分離できる音声分離AIモデル「SAM Audio」を[発表]{target=“_blank”}した。テキスト、映像、時間スパンという3種類のプロンプトを用いて音を切り出せる点が特徴で、同社は音声分野における初の統合型(unified)音声分離モデルとして位置付けている。 SAM Audioは、Metaが展開してきた「Segment Anything」モデル群の最新例となる。動画や音声に含まれる複数の音が混在した状態から、ユーザーが指定した対象音のみを抽出できるよう設計されており、音声編集や動画制作の工程を大きく変える可能性があるとしている。 Metaは具体例として、バンド演奏を撮影した動画からギターやボーカルだけを分離するケースや、屋外で撮影した映像から交通騒音を除去するケース、ポッドキャスト全体から犬の鳴き声を取り除くといった使い方を挙げている。専門的な音響知識を必要とせず、直感的な操作で音声分離が行える点を強調する。 @[YouTube] ## 3種類のプロンプトで音声分離を実現 SAM Audioは、以下の3種類のプロンプト方式に対応する。 - **テキストプロンプト:** 「dog barking(犬の鳴き声)」や「singing voice(歌声)」といった自然言語を入力することで、該当する音を抽出できる - **ビジュアルプロンプト:** 動画上の人物や物体をクリックすることで、その対象が発している音を分離する - **スパン(時間)プロンプト:** 対象音が含まれる時間区間を指定し、同種の音を音声全体から抽出する。Metaはこの方式を「業界初」としている。 **スパンプロンプト:音声波形上で鳥の鳴き声が含まれる区間を指定すると、その特徴を手がかりに、音声全体から同種の音を検出・分離する。音の名称を言語で指定する必要はなく、「この時間に鳴っている音」を示すだけでよい** ![samaudio spanprompting.jpg] :::small 画像の出典:[Meta]{target=“_blank”} ::: これらのプロンプトは単独でも、組み合わせても使用可能で、ユーザーは目的に応じて柔軟に音声分離の条件を指定できる。 ## 断片化していた音声編集を統合モデルでカバー これまでの音声分離や音声編集は、用途ごとに特化した単機能ツールが中心だった。MetaはSAM Audioについて、人が自然に音を捉え、指定する感覚に近い形で操作できる点を特徴とし、従来の断片化した音声編集環境を統合的に扱えるモデルだと説明している。 [研究論文]{target=“_blank”}では、多様な実世界の音環境を想定した評価において高い性能を示したとしており、音声分離における汎用的な基盤モデルを目指す取り組みとして位置付けられている。 ## 音楽・映像から研究、アクセシビリティまで Metaは、SAM Audioの活用分野として、音楽制作、ポッドキャスト、テレビや映画制作、動画編集、科学研究、アクセシビリティ支援などを挙げている。同社はすでにSAM Audioを次世代のクリエイティブメディアツールの開発に活用しているという。 SAM Audioは、Metaの「Segment Anything Playground」で試用できる。ユーザーは用意された音声・動画素材を選択するほか、自身のデータをアップロードしてモデルの挙動を確認できる。あわせて、研究・開発用途向けにモデルのダウンロード提供も開始している。 Metaは、画像分野で広く使われてきた「Segment Anything」の考え方を音声分野に拡張することで、音声編集の在り方を変える可能性があるとし、SAM Audioを「オールラウンドな音声分離モデル」と位置付けている。 :::box [関連記事:Meta、「SAM 3」を発表──テキストや画像例をプロンプトに、画像・動画内の物体を一括検出・分割・追跡 併せて「SAM 3D」で人物・物体の3D生成にも対応] ::: :::box [関連記事:Meta、テキストと音声を統合する初のマルチモーダルAIモデル「Spirit LM」を発表] ::: :::box [関連記事:ElevenLabs テキストから効果音を生成するモデル「Sound Effects」公開] ::: :::box [関連記事:AIの身体性問題に糸口、「読む」だけで「見る・聞く」も学ぶLLM──画像・音声分類に使える“汎用言語モデル”の可能性] ::: :::box [関連記事:ByteDance、対話音声と任意の静止画像をもとに、自然な表情や頭の動きを伴うインタラクティブな人物動画を生成するAIを発表!] :::

アクセスランキング
25to26_registration_rectangle_top_ai70th
FOLLOW US
各種SNSでも最新情報をお届けしております