注目の自動車ニュース
NVIDIA、自動運転研究用オープン推論VLAモデル「DRIVE Alpamayo-R1」発表
エヌビディア(NVIDIA)は、AI分野の主要カンファレンス「NeurIPS」において、自動運転研究向けの世界初となるオープン推論ビジョン・ランゲージ・アクション(VLA)モデル「DRIVE Alpamayo-R1(AR1)」を発表した。
AR1は、思考の連鎖によるAI推論と経路計画を統合し、複雑な道路状況における自動運転車の安全性向上とレベル4自動運転の実現を目指す。従来の自動運転モデルが苦手としていた歩行者の多い交差点や車線閉鎖、自転車レーンに駐車された車両などの微妙な状況に対応できる。
AR1は、シナリオを分解して各ステップを推論することで、人間のような常識的な運転を可能にする。すべての可能な軌道を考慮し、コンテキストデータを使用して最適なルートを選択する仕組みだ。
例えば、自転車レーンの隣にある歩行者の多いエリアを走行する自動運転車は、AR1の思考連鎖推論を活用することで、経路からデータを取り込み、特定の行動を取った理由の説明である推論トレースを組み込み、その情報を使用して自転車レーンから離れたり、飛び出しの可能性がある歩行者のために停止したりするなど、将来の軌道を計画できる。
AR1のオープン基盤はエヌビディア・コスモス・リーズンに基づいており、研究者はベンチマークや実験的な自動運転アプリケーションの構築など、非商用ユースケース向けにモデルをカスタマイズできる。AR1の事後学習では強化学習が特に効果的であることが証明されており、事前学習モデルと比較してAR1の推論能力が大幅に向上したことが観察されている。
エヌビディア DRIVE Alpamayo-R1は現在、GitHubとHugging Faceで利用可能で、モデルの学習と評価に使用されたデータのサブセットはエヌビディア・フィジカルAIオープンデータセットで入手できる。また、AR1を評価するためのオープンソースフレームワーク「AlpaSim」も公開された。
同社はまた、物理AIの開発を支援するため、コスモスベースのモデルを使用および事後学習する方法を学べる「Cosmos Cookbook」を公開した。これは、データキュレーション、合成データ生成、モデル評価など、AI開発のすべてのステップをカバーする物理AI開発者向けの包括的なガイドだ。
コスモスベースのアプリケーションの最新例には、自動運転シミュレーション用のライダーデータを生成できる世界初のワールドモデル「LidarGen」、ニューラル再構成データのアーティファクトをほぼ瞬時に修正する「Omniverse NuRec Fixer」、大規模な事前学習済みビデオモデルを堅牢なロボットポリシーに変換するフレームワーク「Cosmos Policy」、物理シミュレーションされたデジタルヒューマンやヒューマノイドロボットを学習するためのオープンソースGPUアクセラレーションフレームワーク「ProtoMotions3」などがある。
デジタルAI分野では、エヌビディアは新しいマルチスピーカー音声AIモデル、推論機能を備えた新モデル、AI安全性向上のためのデータセットを公開した。これらのツールには、複数の話者を理解できるストリーミングオーディオ用自動音声認識モデル「MultiTalker Parakeet」、オーディオストリーム内の複数の話者をリアルタイムで正確に区別できる最先端モデル「Sortformer」、ドメイン全体でカスタムポリシーを動的に適用する推論ベースのAI安全モデル「Nemotron Content Safety Reasoning」などが含まれる。
エヌビディアの研究者は、NeurIPSで70以上の論文、講演、ワークショップを発表し、AI推論、医療研究、自動運転車開発などにわたる革新的なプロジェクトを共有している。












