ロボットや自動運転、スマートインフラといったPhysical AI(物理世界で動く AI)の開発では、「学習データが足りない」「実機・実車での試行にコストと時間がかかりすぎる」という壁に必ずぶつかります。実環境を一つひとつ走らせてデータを集めるのは現実的ではなく、危険なシーンや稀なシーンほど集めにくい、というジレンマもあります。
この課題に対して近年注目されているのが「world foundation model(世界モデル)」と呼ばれるアプローチです。物理的に妥当な映像や行動系列を生成し、実機試行の代わりとなる合成データやシミュレーションを供給するという考え方ですが、概念が新しく抽象的なため、「自分のプロジェクトに本当に使えるのか」「ありふれた動画生成 AI と何が違うのか」が分かりにくいのも事実です。
NVIDIA Cosmos は、まさにこの world foundation model を中心に据えた、Physical AI 開発のためのオープンプラットフォームです。2026年5月31日には最新世代の「Cosmos 3」がリリースされ、GitHub のスター数は10,000を超えるなど注目を集めています。
本記事では、NVIDIA Cosmos の公式リポジトリ・公式サイト・技術ドキュメントをもとに、Cosmos 3 の仕組み・モデル構成・類似OSSとの違い・GPU要件・ライセンスを「採用すべきか/見送るべきか/補完的に使うか」という意思決定の視点から整理します。なお本記事は公開ドキュメントに基づく解説であり、筆者による動作検証・実行は行っていません。実際の挙動は必ず公式ドキュメントとご自身の環境でご確認ください。
NVIDIA Cosmosとは|Physical AI開発を支える世界モデルOSS
NVIDIA Cosmos は、公式の説明によれば「ロボット・自動運転車・スマートインフラなどの Physical AI を開発者が構築できるようにする、world model(世界モデル)・データセット・ツールのオープンプラットフォーム」です(GitHub: NVIDIA/cosmos)。
ここで言う world foundation model(世界モデル)とは、物理環境を理解・シミュレーション・生成するために大規模に学習された AI を指します。実機での試行を繰り返す代わりに、物理的に妥当な合成データ(動画や行動の系列)を生成することで、ロボット学習や自動運転の学習コストを下げることを狙ったものです。NVIDIA の公式サイトでは、Cosmos を「現実世界のシナリオを推論し、合成的な動画データを生成し、物理的に正確な環境をシミュレーションできる多用途な基盤モデル」と位置づけています(NVIDIA Cosmos 公式サイト)。
具体的な活用領域としては、公式サイトで次のような例が挙げられています。
- ロボティクス: ロボットのポリシー学習のバックボーンとして機能し、事前学習した行動を特定のタスクや領域へ適応させる
- 自動運転: 天候・照明・地理条件を変えた多様で高精細なセンサーデータを生成し、安全な学習・検証に用いる
- 合成データ生成・世界シミュレーション: 実環境の制約を取り払い、無限に近い学習シナリオを生成する
このセクションでまず押さえたいのは、「Cosmos は最終的にロボットを動かすためのフレームワークではなく、その手前で物理世界を理解・生成する上流の基盤モデルである」という点です。自分の領域がデータ生成・シミュレーション・物理推論にあるなら関係が深く、すでに学習済みポリシーを実機にデプロイする段階であれば、後述する別系統のツールとの組み合わせを検討することになります。
リポジトリの基本情報
採用判断の前提となる基本情報を、公式リポジトリのメタデータ(2026年6月時点)から整理します。
項目 | 値 |
|---|---|
owner/name | NVIDIA/cosmos |
公式ブランド表記 | NVIDIA Cosmos |
主要言語 | Jupyter Notebook |
スター数 | 10,169 |
フォーク数 | 660 |
最終更新(pushed_at) | 2026年6月13日 |
公開状態 | public(アーカイブ・フォークではない) |
このリポジトリはアーカイブ化されておらず(archived=false)、フォークでもなく(fork=false)、最終更新も2026年6月13日と直近です。メンテナンス状況という観点では、活発に更新されている現役プロジェクトと判断できます。
ライセンスについては注意が必要です。README 末尾の「License and Contact」では、ソースコード・モデルともに OpenMDW-1.1 ライセンスで公開されると明記されています(OpenMDW-1.1 License)。一方で、GitHub の SPDX 自動判定は NOASSERTION(未確定)となっています。これは GitHub のライセンス検出が一意に解決できなかったことを示すもので、ライセンスが無いという意味ではありません。正確なライセンス条件と、同梱される第三者 OSS の各ライセンスについては、必ず公式リポジトリの LICENSE ファイルを直接確認してください。カスタムライセンスが必要な場合は cosmos-license@nvidia.com が窓口として案内されています。
Cosmos 3の仕組み|ReasonerとGeneratorの2つのモード
2026年5月31日にリリースされた Cosmos 3 は、テキスト・画像・動画・音声・行動(action)を単一のアーキテクチャで横断的に処理・生成する omnimodal(全モダリティ対応)な world model です。公式は「ネイティブな推論・世界生成・行動生成を備えた初の omni-model」と表現しています(NVIDIA Cosmos 公式サイト)。
「omnimodal」という言葉だけでは採用判断に使いにくいため、Cosmos 3 を「2つの実行モード(Surface)」に分解して捉えると理解しやすくなります。
Reasoner(世界理解・物理推論・タスク計画)
Reasoner は、テキストと視覚入力を受け取り、テキストを出力するモードです。担う役割は、世界理解・グラウンディング・物理推論・タスク計画・行動予測・エージェント推論など、自律システムの「意思決定」にあたる部分です。
「このシーンで次に何が起きるか」「ロボットがどう動くべきか」を言語で推論する、いわば物理世界を読み解く頭脳の役割と考えると分かりやすいでしょう。
Generator(世界生成・合成データ・行動条件付け)
Generator は、テキスト・視覚・音・行動を入力として受け取り、視覚・音・行動を出力するモードです。世界生成・世界シミュレーション・未来予測・合成データ生成・ポリシー学習・ロボット訓練といった、「データやシミュレーションを作り出す」役割を担います。
ここで重要なのが、入力・出力に「行動(action)」が含まれる点です。単に見栄えの良い動画を作るのではなく、ロボットの行動と紐づいた映像を条件付きで生成できることが、後述する汎用動画生成 OSS との決定的な違いになります。
統一MoTアーキテクチャの考え方
Cosmos 3 はこの Reasoner と Generator を、統一された Mixture-of-Transformers(MoT)アーキテクチャの上で実現しています。技術的な要点は次の通りです。
- 推論用の自己回帰(AR)transformer と、生成用の diffusion transformer を一つのアーキテクチャに統合している
- Reasoner モードは causal self-attention による next-token 予測で、知覚・計画・推論を担う
- Generator モードは full attention でノイズ除去を行い、画像・動画・音声・行動を協調的に生成する
- 統一された 3D mRoPE(多次元 rotary position embedding)によって、空間構造と時間構造をエンコードする
アーキテクチャの詳細やベンチマークは公式の技術レポート(Cosmos 3 Technical Report)およびリリース告知(NVIDIA News: Cosmos 3 発表)にまとまっています。採用判断の段階では、「推論(Reasoner)」と「生成(Generator)」という2つの面のどちらが自分の用途に必要かを切り分けて考えるのが実務的です。
モデルファミリーと使い分け(Nano/Super/用途別)
NVIDIA Cosmos には、規模や用途の異なる複数のモデルが用意されています。README の Model Family テーブルをもとに整理すると、選択肢は次のようになります。
モデル | サイズ | 主な能力 |
|---|---|---|
Cosmos3-Nano | 16B | コンパクトな omnimodal world model(理解・世界シミュレーション・未来予測・行動推論) |
Cosmos3-Super | 64B | フロンティア規模の omnimodal world model(高度な理解・シミュレーション・予測・行動推論) |
Cosmos3-Super-Text2Image | 64B | 高精細な text-to-image 生成 |
Cosmos3-Super-Image2Video | 64B | 時間的に一貫した image-to-video 生成 |
Cosmos3-Nano-Policy-DROID | 16B | DROID マニピュレーション・制御向けの vision-language ロボットポリシー |
(出典: GitHub: NVIDIA/cosmos README)
使い分けの目安は次の通りです。
- まず手元の GPU で挙動を確かめたい・軽量に始めたいなら、16B の Cosmos3-Nano
- 品質・能力を最大限引き出したい本番寄りの検討なら、64B の Cosmos3-Super 系
- 画像生成・動画生成というタスクが明確なら、Text2Image / Image2Video の特化モデル
- ロボットのマニピュレーション(DROID)に直接踏み込むなら、ロボットポリシー特化の Cosmos3-Nano-Policy-DROID
各モデルの重みは Hugging Face のモデルコレクションで公開されています(Hugging Face: nvidia/cosmos3 コレクション)。
なお、公式のリリース告知ではリアルタイムなエッジ推論向けの「Cosmos 3 Edge」が Coming Soon として予告されていますが、README の Model Family テーブルには現時点で掲載されていません(出典: NVIDIA News、2026年)。エッジ用途を前提に採用判断する場合は、正式提供を待つ必要がある点に留意してください。
動かすための要件と統合の選び方(GPU・CUDA・Diffusers/vLLM/NIM)
「自分の環境で現実的に動かせるか」「どの経路で始めるべきか」は、採用判断で最も気になる点の一つです。ここでは公式ドキュメントの記載に基づいて、要件と統合経路を整理します。繰り返しになりますが、以下は公開ドキュメントの記載に基づく整理であり、筆者が実行・検証したものではありません。
ハードウェア・ソフトウェア要件
README に記載された主な要件・設定は次の通りです。
- 対応 OS: Linux
- GPU: NVIDIA Ampere / Hopper / Blackwell 世代
- 精度: BF16
- CUDA: 13 推奨、もしくは 12.8
- 解像度: 256p / 480p / 720p(デフォルト 480p)
- アスペクト比: 16:9 ほか(デフォルト 16:9)
- フレームレート: 10 / 16 / 24 / 30 FPS(デフォルト 24)
- フレーム数: 5〜300(デフォルト 189。24FPS で約7.9秒に相当)
GPU が Ampere 以降の NVIDIA 製であること、Linux 環境であることが前提となるため、手元のリソースがこの条件を満たすかが最初の判断ポイントになります。
5つの統合経路の使い分け
README の「Choosing an Integration」では、目的別に使うべき統合経路が整理されています。これは「研究で挙動を試したいのか、本番で API として配備したいのか」によって入り口が変わることを意味します。
目的 | 使うもの | 概要 |
|---|---|---|
Generator の研究・モデル開発 | Diffusers | 生成挙動を確認・改変するための Python ファーストな経路 |
Generator の本番推論 | vLLM-Omni | 画像・動画・音・行動を出力する API 経路 |
Reasoner の研究・モデル開発 | Transformers(coming soon) | プロンプト・プロセッサ・モデル挙動を扱う Python ファーストな経路 |
Reasoner の本番推論 | vLLM | テキスト・視覚入力からテキストを返す OpenAI 互換エンドポイント |
Reasoner のターンキー配備 | NIM | 事前ビルド済みの OpenAI 互換コンテナ(vLLM/CUDA の設定不要) |
セットアップ・訓練・評価 | Cosmos Framework | setup / inference / training / evaluation の全ワークフロー |
(出典: GitHub: NVIDIA/cosmos README)
採用判断の観点では、次のように整理できます。まず研究・PoC として生成を試すなら Diffusers から入るのが入り口です。本番でサービングするなら、生成系は vLLM-Omni、推論系は vLLM、設定不要で素早く配備したいなら NIM が候補になります。学習・評価まで含めて end-to-end で回すなら、別リポジトリの Cosmos Framework(GitHub: NVIDIA/cosmos-framework)が用意されています。なお Reasoner 向けの Transformers 経路は「coming soon」とされており、現時点では Generator 系の方が踏み込みやすい構成です。
クイックスタートの流れ(公式README抜粋)
実際の入り口がどの程度シンプルかをイメージするために、README に掲載されているクイックスタートの抜粋を紹介します。以下のコードは公式 README からの引用であり、改変は加えていません。
まず、モデルをダウンロードするために Hugging Face のトークン認証を行います。
uvx hf@latest auth login
(出典: GitHub: NVIDIA/cosmos README)
次に、Diffusers を使った text-to-video の最小例です。Cosmos3OmniPipeline を呼び出し、プロンプトから動画を生成します。
import torch
from diffusers import Cosmos3OmniPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
from diffusers.utils import export_to_video
,[object Object],
,[object Object],
(出典: GitHub: NVIDIA/cosmos README)
README では、CUDA ビルドの選択にあたって uv pip install --torch-backend=auto を使うことでドライバに合う CUDA ビルドを自動選択できる旨が案内されています。また初回実行は Cosmos3-Nano のダウンロードと diffusion 処理が重く時間がかかるため、ハングではない旨も注記されています。手元で試す前に、この「初回は重い」という前提を把握しておくと判断を誤りにくいでしょう。
類似OSSとの違い|LeRobot・CogVideoXとの比較で見る立ち位置
採用判断で最も切実な問いは、「他の選択肢と何が違い、どう組み合わせるか」です。Cosmos の立ち位置を、Physical AI 領域で比較されやすい2つの OSS と対比して整理します。
LeRobot との違い(補完関係)
Hugging Face LeRobot は、ロボット学習(模倣学習・強化学習)を end-to-end で扱う OSS ライブラリです。VLA(vision-language-action)モデル、LeRobotDataset というデータセット形式、シミュレータ統合などを備え、「ロボットに実際のポリシーを学習させて動かす」ことに主眼を置いています。
これに対して NVIDIA Cosmos は、「物理世界を理解・生成する基盤モデル(合成データ生成・世界シミュレーション・物理推論)」という上流側に位置します。両者は競合というより、上流(Cosmos)と下流(LeRobot)の補完関係と捉えるのが自然です。具体的には、Cosmos が生成した合成データやポリシーを LeRobot 系のフレームワークで学習・実行する、という組み合わせが考えられます。
つまり「実機を動かすライブラリを探している」なら LeRobot 系、「学習データやシミュレーションの基盤を探している」なら Cosmos、と入り口で切り分けられます。
CogVideoX との違い(汎用動画生成 vs Physical AI 特化)
CogVideoX(旧 THUDM/CogVideo)は、diffusion transformer ベースの汎用的な text-to-video / image-to-video 生成 OSS です。比較的軽量なバリエーションもあり、「見栄えの良い動画を生成する」ことが主目的です。
Cosmos も動画を生成しますが、その核は「物理的妥当性(physical plausibility)」「行動条件付け(action conditioning)」「世界推論」にあります。先ほど触れたように、Cosmos の Generator は入出力に「行動(action)」を含み、ロボットの関節次元やカメラモーションといった物理的なパラメータと紐づいた生成ができます。加えて Reasoner による物理推論を持つ点も、汎用動画生成モデルとは決定的に異なります。
したがって、SNS 向けの映像表現やクリエイティブ用途であれば CogVideoX 系で十分なケースが多く、ロボット・自動運転のように「物理的に妥当で、行動と結びついたデータ」が必要な用途では Cosmos が適している、という棲み分けになります。
なお、世界モデルの代表概念として Google DeepMind の Genie がしばしば引き合いに出されますが、こちらはクローズドで OSS として公開されていません。オープンに使える選択肢として比較する場合は、LeRobot・CogVideoX を主な対象に据えるのが現実的です。
採用前に押さえるべき制約とライセンス
ここまでの利点を踏まえても、本番採用にあたっては制約とライセンスを冷静に確認しておく必要があります。見送りや段階的導入の判断材料として整理します。
公式が明記する制約(Limitations)
README の「Limitations」では、Cosmos 3 が長尺・高解像度・物理的に複雑な出力においてアーティファクト(不具合)を生じうることが明記されています。代表的な失敗モードとして、時間的不整合、不安定なカメラ・物体運動、音と映像のズレ、行動状態の不整合、物体モーフィング、不正確な3D構造、非現実的な物理ダイナミクスが挙げられています。
そのうえで公式は、「物理的に正確なシミュレーション、安全クリティカルな制御、複雑なマルチエージェント挙動を要求するアプリケーションは、デプロイ前に追加の検証・ガードレール・システムレベルの安全分析が必要」と明記しています(GitHub: NVIDIA/cosmos README)。自動運転や産業用ロボットのような安全クリティカル領域でそのまま本番投入することは想定されておらず、検証レイヤーの構築が前提となる点は重要な判断材料です。
エコシステム(Curator / Evaluator)
Cosmos は単体のモデルだけでなく、周辺ツールもエコシステムとして整備されています。
- Cosmos Framework: 学習・サービングを担う end-to-end の Physical AI フレームワーク
- Cosmos Curator: 分散データキュレーション(処理・注釈・フィルタリング・重複排除)
- Cosmos Evaluator: 世界生成・世界推論の出力を自動評価
特に Evaluator は、上記の制約と表裏一体です。生成結果の妥当性を評価する仕組みが用意されているということは、裏を返せば「生成物をそのまま信頼せず評価する工程が必要」という設計思想の表れでもあります。
ライセンスの確認
ライセンスについては、本記事の冒頭でも触れた通り両面を押さえておく必要があります。README では OpenMDW-1.1 ライセンスが明記されている一方、GitHub の SPDX 自動判定は NOASSERTION(未確定)です。さらに Cosmos は第三者 OSS を同梱しているため、各依存ライブラリのライセンスも個別に確認する必要があります。商用利用の可否を判断する際は、公式リポジトリの LICENSE ファイルと OpenMDW-1.1 の条文(OpenMDW-1.1 License)を必ず原典で確認し、必要に応じて cosmos-license@nvidia.com に問い合わせてください。
まとめ|NVIDIA Cosmosをどう位置づけて使うか
最後に、NVIDIA Cosmos を採用判断の視点で整理します。
NVIDIA Cosmos は、ロボット・自動運転・スマートインフラといった Physical AI 開発の「上流」を担う基盤プラットフォームです。合成データ生成・世界シミュレーション・物理推論を、Reasoner と Generator の2つのモードで提供し、行動(action)まで含めて扱える点が、汎用動画生成 OSS(CogVideoX 等)との決定的な違いです。一方で、実機にポリシーをデプロイする下流のフレームワーク(LeRobot 等)とは競合せず、補完関係として組み合わせられます。
採用判断の軸としては、次のように整理できます。
- 採用・PoC から始める: データ生成・世界シミュレーションが課題の中心で、Ampere 以降の GPU・Linux 環境がある場合。Diffusers で Cosmos3-Nano から試すのが入り口
- 補完的に使う: 実機を動かす段階で、Cosmos が生成した合成データを LeRobot 系で学習させるなど、上流ツールとして組み込む
- 現時点では見送る・待つ: エッジ推論(Coming Soon の Cosmos 3 Edge)が前提の用途、または安全クリティカル領域で追加検証の体制を組めない場合
メンテナンス面では、アーカイブ化されておらず(archived=false)、フォークでもなく(fork=false)、最終更新も2026年6月13日と直近で、活発に開発されている現役プロジェクトです。一方でライセンスは OpenMDW-1.1(README 明記)と SPDX 未確定(NOASSERTION)の両面があり、第三者 OSS も同梱されるため、商用検討時は原典での確認が欠かせません。
次の一歩としては、公式リポジトリ(GitHub: NVIDIA/cosmos)と技術レポートで仕様を精読し、自分の用途が Reasoner・Generator のどちらに寄るかを切り分けたうえで、小さな PoC から検証していくのが現実的でしょう。本記事はあくまで公開ドキュメントに基づく整理のため、最終的な判断は必ず公式情報とご自身の環境での検証に基づいて行ってください。
よくある質問
- OpenMDW-1.1ライセンスのNVIDIA Cosmosは商用利用できますか?
OpenMDW-1.1はフィールド制限・ロイヤリティなしの寛容なライセンスであり、商用利用を基本的に制限しません。ただしNVIDIAがLICENSEファイルに追加条件を付加している可能性があるため、商用採用前に公式リポジトリのLICENSEファイルとOpenMDW-1.1条文を原典で確認し、必要に応じて
cosmos-license@nvidia.comに問い合わせてください。- Reasonerの「Transformers経路(coming soon)」を待たずに今すぐ試す方法はありますか?
Reasoner NIMが現在利用可能で、事前ビルド済みのOpenAI互換コンテナとして提供されており、vLLMやCUDAの設定なしにすぐ動かせます。研究・PoC目的でPython APIから試したい場合はTransformers経路の公開を待つ必要がありますが、本番配備や動作確認レベルであればNIMが最速の選択肢です。
- Cosmos3-Nanoを動かすには最低どれくらいのGPU/VRAMが必要ですか?
16BパラメータをBF16で読み込むと重みだけで約32GBのVRAMを消費し、推論実行には96GB以上のVRAMが推奨されます(RTX PRO 6000相当)。GPU世代はAmpere以降(A100・H100・Blackwellなど)かつLinux環境が前提です。手元のリソースがこの要件を下回る場合は、NIMやDeepInfraのようなクラウドAPIで検証するのが現実的です。
- Cosmosが生成した合成データをそのまま学習に使っても大丈夫ですか?
公式のLimitationsが示す通り、時間的不整合・不正確な3D構造・非現実的な物理ダイナミクスなどのアーティファクトが生じうるため、生成物をそのまま学習に使うのは推奨されません。Cosmos Evaluatorで品質評価し、検証・フィルタリングのパイプラインを組み込んだうえで活用するのが公式の想定設計です。
- WindowsマシンではNVIDIA Cosmosを動かせませんか?
現時点の公式要件はLinux限定であり、Windows環境での動作は公式にサポートされていません。Windowsで試したい場合は、WSL2(Windows Subsystem for Linux)上でLinux環境を用意するか、クラウド上のLinux GPU インスタンスを利用するのが現実的な回避策です。


