Metaは2026年3月27日、画像・動画セグメンテーションモデルの最新版「Segment Anything Model 3.1(SAM 3.1)」を発表した。新たに導入された「オブジェクトマルチプレキシング」技術により、1回のフォワードパスで最大16個の物体を同時追跡可能になり、NVIDIA H100 GPU上での処理速度が16fpsから32fpsへと2倍に向上している。
SAM 3.1のセグメンテーション結果(出典:Meta AI公式ブログ)
オブジェクトマルチプレキシングとは
SAM 3.1の核となる新機能「オブジェクトマルチプレキシング」は、従来のように物体ごとに個別の推論を行うのではなく、グローバル推論アプローチを採用している。これにより、混雑したシーンでも冗長な計算を排除し、最大16物体を一度に処理できる。H200 GPU上では100個以上の検出オブジェクトを含む単一画像でも30ミリ秒の推論レイテンシを実現し、動画では約5つの同時オブジェクトに対してリアルタイム性能を維持する。
テキスト・画像・映像を横断するプロンプタブルセグメンテーション
SAM 3.1では、テキストプロンプト、エグゼンプラープロンプト(サンプル画像の切り抜き)、ビジュアルプロンプトの3種類の入力方式に対応している。テキストで「赤い車」と指定すれば画像内の該当物体を検出・セグメンテーションし、サンプル画像を与えれば類似するすべてのインスタンスを自動検出する。
トレーニングデータの規模
データセット | フレーズ数 | マスク数 |
|---|---|---|
ユニークフレーズ | 400万 | 5,200万 |
合成フレーズ | 3,800万 | 14億 |
Meta製品への統合
SAM 3.1はすでにMetaの複数プロダクトに統合されている。Instagram Editsでは動画内の特定の人物やオブジェクトにダイナミックなエフェクトを適用する機能として活用され、Meta AI Vibesではビジュアル生成ツールの基盤技術として機能している。また、Facebook MarketplaceではAR(拡張現実)を使った家具の配置シミュレーション「View in Room」機能にも採用されている。
オープンソースで公開
Metaはモデルの完全なオープンソース化を実施しており、GitHubリポジトリ(facebookresearch/sam3)でコードを、Hugging Face(facebook/sam3.1)でモデルチェックポイントを公開済みだ。研究論文もarXivで閲覧可能となっている。SA-Co(セグメンテーション精度評価)ベンチマークでは、既存手法(GLEE、OWLv2、LLMDet)に対して2倍のパフォーマンスを達成し、ユーザー選好テストでもOWLv2ベースラインに対して約3対1の優位性を示している。
コンピュータビジョン分野におけるオープンソースモデルとして、SAMシリーズはすでに広く採用されている。今回のSAM 3.1は、リアルタイム性と精度の両立という点で大きな前進であり、映像編集・AR・産業用途など幅広い分野での活用拡大が見込まれる。
参考:Meta AI公式ブログ / arXiv論文

