NVIDIAが言語、エージェント型AI、ロボティクス、自動運転、バイオメディカル研究を対象としたオープンモデル、データセット、開発ツール群を公開した。今回のアップデートでは既存のNVIDIAモデルファミリーが拡張され、関連する学習データとリファレンス実装がGitHub、Hugging Face、NVIDIAの開発者向けプラットフォームを通じて提供される。
エージェント型AI分野でNVIDIAはNemotronモデルファミリーを拡張し、音声認識、検索拡張生成、安全性向上のための新コンポーネントを追加した。Nemotron Speechは低レイテンシかつリアルタイムのユースケース向けに最適化された自動音声認識モデルを含む。Nemotron RAGはマルチモーダルドキュメント検索およびリトリーバルパイプラインを目的とした、埋め込みおよび再ランキング用の視覚言語モデルを導入する。Nemotron Safetyはコンテンツフィルタリングや機微情報、個人識別情報の検出に対応したアップデートモデルを追加する。NVIDIAは公開ベンチマークで評価された埋め込みモデルを含む、一部Nemotronモデルの学習に使用されたデータセットとトレーニングコードも公開した。
ロボティクスおよびフィジカルAI向けに、NVIDIAは現実世界の環境における知覚、推論、合成データ生成をサポートする新たなCosmosワールド基盤モデルを導入した。Cosmos Reason 2は物理環境で動作するエージェントのシーン理解を強化するために設計された、マルチモーダル推論モデルである。Cosmos Transfer 2.5およびCosmos Predict 2.5は多様な環境や条件にわたる合成動画データ生成にフォーカスしており、シミュレーションおよびデータ拡張のワークフローを支援する。Cosmos上に構築されたものとしてNVIDIAはIsaac GR00T N1.6、フルボディ制御をサポートし、視覚知覚と行動計画を統合するヒューマノイドロボット向けのオープン・ビジョン・ランゲージ・アクションモデルを公開した。
今回の発表のひとつの要素はNVIDIA Alpamayo、推論ベースの自動運転向けの新オープンモデルファミリーだ。Alpamayoはビジョン・ランゲージ・アクションアーキテクチャにおいて、知覚、計画、説明可能性を統合しており、シミュレーションツールおよび大規模走行データセットと組み合わせて提供される。NVIDIAはAlpaSim、自動運転車モデルのクローズドループ評価向けオープンソースシミュレーションフレームワークも導入した。
NVIDIAオートモーティブ部門責任者Xinzhou Wu氏によると、Alpamayoおよび関連ツール群は研究、シミュレーション、データエンジニアリング、安全性、統合チームにわたる数年規模の開発成果を反映している。Wu氏はこの取り組みには広範な公道試験、Cosmosなどのプラットフォームを用いた継続的かつ大規模なシミュレーション、さらにMercedes-Benzを含む自動車パートナーとの緊密な協業が含まれており、初期導入は今後の量産車で計画されていると述べた。
ヘルスケアおよびライフサイエンス分野のアップデートは、新NVIDIA Claraモデルを通じて提供される。これには原子レベルのタンパク質設計向けLa-Proteina、合成考慮型創薬向けReaSyn v2、初期段階の安全性および相互作用予測向けKERMT、RNA構造モデリング向けRNAProが含まれる。NVIDIAはこの分野での学習および評価を支援するため、45万5,000件の合成タンパク質構造からなるデータセットも公開した。
すべてのモデルおよびデータセットはオープンライセンスの下で公開されており、GitHubおよびHugging Faceを通じて利用可能である。NVIDIAはローカル推論環境からクラウドインフラストラクチャまで、これらのモデルの多くがNVIDIAアクセラレーテッドシステムでのデプロイ向けNIMマイクロサービスとしてもパッケージ化されていると述べている。