NVIDIA、完全オープンな物理AIモデル「Cosmos 3」を発表、7つ以上のベンチマークで首位

NVIDIAは、テキスト、画像、動画、音声、物理的アクションを単一のシステムで処理するMixture-of-Transformersアーキテクチャを採用した完全オープンな物理AIモデル「Cosmos 3」をリリースした。同モデルは、Physics-IQ、RoboLab、VANTAGE-Benchなど7つ以上のベンチマークで首位を獲得している。オープンな重み、トレーニングスクリプト、フルデータセットは現在Hugging Faceで公開されており、64BのSuperと16BのNanoが提供されている。これにより、ロボティクスや自動運転チームは、合成データを用いたトレーニングサイクルを数か月から数日へと短縮できる事前学習済みの基盤を得ることになる。

出典： nvidianews.nvidia.com ↗

Cosmos 3は、text、images、video、ambient sound、actionsをネイティブに理解・生成できる世界初の完全オープンなomnimodelで、主要なphysics accuracyを誇り、physical AIのトレーニングと評価サイクルを数ヶ月から数日に短縮する。

NVIDIA

なぜ重要か

→ multimodal inputsとaction generationを扱う事前学習済みファウンデーションモデルを提供することで、物理AIのトレーニングサイクルを数ヶ月から数日に短縮する。
→ roboticsとautonomous vehicles向けに、vision reasoning、world simulation、action predictionを一つのシステムに統合した初の完全オープンなomnimodel。
→ Hugging Faceで公開されている重みとデータセットにより、最先端のphysical AI能力への開発者のアクセスが拡大する。

Physical AIの加速

このエディションの他の記事