NVIDIAと中国SenseTimeが「空間知能」競争を加速、フィジカルAI基盤技術の最前線

30秒サマリー

NVIDIAが世界モデル「Cosmos 3」を発表、空間知能データで訓練し物理AIの基盤を狙う
中国SenseTimeは画像「理解」と「生成」を単一モデルで統合するSenseNova-U1を発表、空間知能ベンチマークで高スコアを記録
コードと重みを公開、中国AIラボのオープン研究が世界の注目を集めている

何が起きたか

arXivの2026年5月14日〜6月6日投稿論文のうち、SNS言及数で上位に入ったAI論文として、NVIDIAと中国SenseTimeの研究成果が注目を集めた。

NVIDIAは2026年6月、言語・画像・動画・音声・行動系列を統一的に扱う世界モデル「Cosmos 3」を発表した。論文では空間知能に関連するデータセットを訓練に活用したと説明しており、ロボット制御を含むフィジカルAI分野への応用を意識した設計とみられる。

SNS言及数で7位に入ったSenseTimeの「SenseNova-U1」は、独立したVision EncoderやVAEに依存せず、MoT（Mixture-of-Transformers）を中核に画像理解と画像生成を単一のエンドツーエンドモデルで処理する点が特徴だ。VSI-BenchやViewSpatialなどの空間知能ベンチマークで同規模のQwen3VLを上回るスコアを報告しており、著者らは理解と生成が相互補完している可能性を示すと説明している。

SenseTimeはコードと2モデルの重みを公開しており、AlibabaのQwenなどと並び、中国AIラボが高性能モデルをオープンに提供する動きが続いている。SNS上ではこうした中国発のオープン研究を評価する声も見られたと報告されている。

原典ハイライト

SenseNova-U1はVLAや世界モデリングへの応用可能性として、ロボットアーム視点の画像と行動指示を入力し、行動後の視覚的状態を予測する予備的な事例（論文Figure 15）を提示。著者らは「シーン全体の一貫性とオブジェクトの整合性を維持しつつ、妥当な視覚的状態遷移に変換できている」と主張している。

出典: 日経xTECH IT（報道）

So What?（なぜ重要か）

「空間知能」はロボット制御・自律走行など物理世界を扱うフィジカルAIの核心技術であり、NVIDIAと中国AI企業が異なるアーキテクチャー設計で同一領域を攻めていることが明確になった。SenseNova-U1のようなエンドツーエンド統合モデルが実用レベルに達すれば、VLA（視覚・言語・行動モデル）の開発コストが大幅に下がり、製造・物流ロボットへの応用が加速する可能性がある。

日本企業への示唆

製造・物流・建設などの現場でロボットやAI自動化を検討する日本企業にとって、フィジカルAIの基盤技術が急速に整備されつつあることを認識すべき局面だ。SenseNova-U1はコード・重みが公開されているため、技術検証コストは低い。自社の現場データを使ったPoC（概念実証）を早期に行い、VLAや世界モデルを活用したロボット制御の実現可能性を見極めることが競争優位につながる。一方で、米中の技術覇権競争が激化する中、採用するモデルの出所（米国系か中国系か）がサプライチェーンリスクやセキュリティ審査に影響しうる点も考慮が必要だ。

背景・経緯

「空間知能」は物体の位置関係・奥行き・移動経路を把握して行動する能力を指し、フィジカルAIの重要要素とされる。2026年2月に10億ドルを調達した米World Labsがこの領域を注力分野と位置づけており、業界全体で注目度が高まっている。MoTはもともと2024年にMetaらが計算効率向上のために提案したマルチモーダル向けTransformerであり、NVIDIAのCosmos 3とSenseNova-U1は共にMoTを採用しつつ、設計思想（エンコーダー有無）において異なるアプローチをとっている。