特集
FEATURE
ビジネス
BUSINESS
ラーニング
LEARNING
エンジニアリング
ENGINEERING
学術&研究
ACADEMICS & STUDY
公共
PUBLIC
エンタメ&アート
ENTERTAINMENT & ART
1~13 / 582件
Metaは2025年11月19日(現地時間)、画像および動画に含まれるオブジェクトを、プロンプトを基点に一括で検出・分割・追跡できる新モデル「Segment Anything Model 3(SAM 3)」を[発表]{target=“_blank”}している。 Metaの公式Xアカウント(@AIatMeta)は、両モデルを「新しい世代のSegment Anything Models」と[紹介]{target=“_blank”}し、開発者・研究者向けのメディアワークフローを大きく拡張するとしている。 ## SAM3:プロンプトから“概念”ベースで検出・分割・追跡 SAM 3は、短いテキストフレーズ(例:「yellow school bus」)や、画像内のサンプルオブジェクトを示す “example prompt” を入力すると、該当するすべてのオブジェクトを一括して検出・分割し、動画では継続的に追跡できるモデル。Metaはこれを「Promptable Concept Segmentation(PCS)」と定義している。 @[Youtube] アーキテクチャは、DETRベースの画像検出器と、SAM 2を基盤とした動画トラッカーを単一バックボーンに統合したもの。論文{target=“_blank”}では、認識と位置特定を切り離す“Presence Head”を新たに採用し、概念ベースの検出精度を向上させたと説明されている。 **SAM 3は、テキストプロンプトを用いた検出と追跡を単一アーキテクチャで統合する** ![SAM 3 architecture overview.jpg] :::small 画像の出典:[Meta]{target=“_blank”} ::: ## 400万概念を含む新データセット「SA-Co」 SAM 3の開発にあたり、Metaは大規模データセット「[SA-Co(Segment Anything with Concepts)]{target=“_blank”}」を新たに構築した。SA-Coは、数百万枚規模の高品質画像と約400万のユニーク概念、数千万のマスク情報を含むもので、モデルが幅広い概念を学習できるよう設計されている。 論文で示されたベンチマーク「SA-Co/Gold」では20万以上の概念を評価対象とし、SAM 3はLVISのゼロショットMask APで48.8を記録。従来モデル(38.5)を大きく上回った。 **SA-Coは、画像中の多様な物体を高精度にラベル付けする大規模データセット。色ごとに異なる概念カテゴリが示されている** ![SA-Co.jpg] :::small 画像の出典:[Meta]{target=“_blank”} ::: SAM 3は、Metaの研究用ウェアラブルデバイス「[Aria Gen 2]{target=“_blank”}」で撮影された一人称視点の映像に対しても高い性能を示す。動きの速さや視点の揺れが大きいファーストパーソン映像でも、対象物の分割と追跡を安定して行える点が特徴だ。 Metaは、Aria Gen 2 Pilot Datasetの一部を[Segment Anything Playground]{target=“_blank”}上で公開しており、これにより、人間の視点から世界を理解する“コンテクスチュアルAI”や、ロボティクス、機械知覚といった応用領域におけるSAM 3の有用性を示している。 ## SAM 3D:1枚の画像から人物・物体の3Dモデルを生成 同時に公開された「SAM 3D」は、人物に特化した「SAM 3D Body」と一般物体向けの「SAM 3D Objects」から構成される。Metaは、単一の2D画像から高精度で3D形状を復元でき、テクスチャとメッシュの情報を従来手法より忠実に再現できる点を強調している。 @[Youtube] ## 2D解析から3D復元までを一貫化 Metaは、SAM 3とSAM 3Dをセットで発表することで、画像・動画内のオブジェクト理解(SAM 3)から3D形状復元(SAM 3D)までを一貫して扱える視覚AI基盤を提示した。動画編集、AR/VR、ロボティクス、ECなど、多数の応用領域で利用可能性があるとしている。 公式Xでは、今回の発表を「新しい世代のSegment Anything Models」と説明し、SAM 3 と SAM 3D が画像・動画・3Dを横断する基盤技術として進化した点を強調している。投稿では、短いテキスト指示や具体例となる画像を用いた物体の検出・分割・追跡(SAM 3)、そして単一画像から人物や物体の3Dモデルを生成する機能(SAM 3D)が紹介され、「開発者と研究者が新しいメディア処理ワークフローを構築するためのツール」と位置づけている。 ![segment anything models.jpg] :::small 画像の出典:[MetaのXアカウントより]{target=“_blank”} ::: :::box [関連記事:Meta 従来の3~10倍速、60秒以内で高品質3Dアセットを生成する「Meta 3D Gen」を発表] ::: :::box [関連記事:Metaとオックスフォード大学、単一画像からの3D情報抽出を高速化するTransformerベースの新AIモデル「VGGT」を発表] ::: :::box [関連記事:Stability AI、2D画像から没入型3D動画を生成する「Stable Virtual Camera」を発表 マルチビュー拡散モデルで従来の3D再構築技術に革新] ::: :::box [関連記事:AIの"ゴッド・マザー" Fei-Fei LiのWorld Labs、マルチモーダル世界モデル「Marble」を一般公開──テキスト・画像・動画から“永続3Dワールド”生成] ::: :::box [関連記事:テキスト一行で3D世界が動く──Google DeepMind、新AIモデル「Genie 3」を公開] ::: :::box [関連記事:Meta、次世代スマートグラス「Aria Gen 2」を発表 – AIとロボティクスの研究向けに高度な機械知覚機能を搭載] :::
Ledge.aiにソリューション情報を掲載しませんか?
使い方や具体的な目標などを詳しくご説明します
お問い合わせ