NVIDIA、Cosmos 3を発表──Physical AIが「行動する前に考える」ための世界モデルへ

Mynto編集部

NVIDIAは、Physical AI向けの新しいオープンな世界基盤モデル「Cosmos 3」を発表した。視覚推論、マルチモーダル生成、行動予測を組み合わせ、ロボット、自動運転車、スマート空間向けのAIが現実世界で動く前に状況を理解し、次に起きることを予測できるようにする。

発表によると、Cosmos 3はテキスト、動画、画像、環境音、行動を扱うomnimodelで、ロボットの関節角度、グリッパー位置、軌道点のような数値的な行動データも生成できる。倉庫、工場、交通、都市インフラのように現実が常に変化する環境を想定している。

Cosmos 3のポイント

機能

説明

期待される効果

視覚推論

シーン内の物体、動き、関係を理解

異常や将来状態を判断しやすい

マルチモーダル生成

テキスト、動画、画像、音、行動を統合

現実に近い訓練データを作りやすい

行動データ生成

関節角度や軌道などを生成

ロボットのタスク学習に使える

長尾シナリオ

珍しい事故・例外ケースを再現

実地で集めにくい危険場面を検証できる

現実世界のAIは、文章AIより失敗コストが高い

チャットAIの誤答は修正できるが、ロボットや車両の誤動作は事故につながる。だからこそ、Physical AIでは、実機テストの前にシミュレーション、合成データ、予測、段階的な安全検証を重ねる必要がある。

NVIDIAは、Agile RobotsやLinker Visionの例を挙げ、産業ロボットやスマートシティでの活用を紹介している。カメラ映像を見て何が起きているかを理解し、次にどう変化するかを推定できれば、監視、物流、製造、安全管理の運用は大きく変わる。

日本の現場産業への影響

日本企業にとって、Physical AIは製造、物流、建設、農業、介護などで重要になる。人手不足が続く現場では、ロボットやAIカメラが人間の判断を補助する余地が大きい。

ただし導入には、モデル性能だけでなく、現場データ、センサー配置、安全基準、保守体制、責任分界が必要だ。Cosmos 3のような世界モデルは強力な部品になり得るが、最終的な成果は、現場に合わせた検証と運用設計で決まる。

参考:NVIDIA BlogNVIDIA Newsroom

この記事に携わった人
Mynto編集部
Mynto.aiの編集部です。
関連記事
お問い合わせ各種

課題解決のためのお役立ち資料ダウンロードや、
サービスのお問い合わせが可能です。
お気軽にご相談ください。