隨著大模型深度融入汽車產業,產業競爭正從功能實現轉向高階智駕能力的比拼,而 VLA(Vision-Language-Action Model,視覺語言行動模型)被視為下一代技術競爭的關鍵變數。
據「鈦媒體 AGI」,輝達 (NVIDIA)(NVDA-US)12 月 1 日宣布正式開源其最新自動駕駛「視覺—語言—行動」(VLA)模型 Alpamayo-R1,該模型能夠同時處理車輛攝影機畫面、文字指令,並輸出行車決策,已在 GitHub 和 Hugging Face 平台開源,並同步推出 Cosmos Cookbook 開發資源包。
這是業界首個專注自動駕駛領域的開源 VLA 模型,輝達此舉旨在為 L4 級自動駕駛落地提供核心技術支援。
值得注意的是,輝達 Alpamayo-R1 相較於傳統黑盒式自動駕駛演算法,主打「可解釋性」,能夠給出自身決策的理由,有助於安全驗證、法規審查與事故責任判定。而輝達同時發表「Cosmos Cookbook」等配套工具,能夠支援企業與開發者快速訓練、評估與部署。
業界認為,輝達試圖透過開放核心技術,降低自動駕駛開發門檻,加速軟體堆疊標準化,打破原來 Robotaxi 昂貴的「全端自研」模式,從而轉變為可快速組裝的「安卓式」生態。
但也有業內人士表示,這次輝達 Alpamayo-R1 開源與百度 Apollo 開源類似,對自動駕駛領域的入門選手來說有價值,但對專業公司來說意義不大。目前,VLA 正成為智慧駕駛領域公認的下一代核心技術,相關企業都在加碼佈局。
傳統的端到端模型像一個「黑盒子」,可能看得見但看不懂,在面對違規左轉、行人闖入等長尾場景時容易「翻車」。
而相較於傳統「端到端」模型,VLA 通過引入語言模態作為中間層,將視覺感知轉化為可解釋的邏輯鏈,從而具備了處理長尾場景和復雜突發狀況的潛力,讓機器像人類一樣觀察、推理、決策,而不僅僅是海量數據的簡單映射。
自動駕駛領域的 VLA(視覺-語言-動作)大模型,代表了將視覺感知、語言理解與決策控制深度融合的技術方向。它能直接輸出車輛的駕駛動作,其核心好處是,讓機器有了更強的環境理解與推理能力、更高效的一體化決策、更強大的長尾場景應對、更透明的人機交互與信任構建、更自然的車控方式等。
這次輝達開源的 VLA 模型 Alpamayo-R1,基於全新的「因果鏈」(Chain of Causation, CoC) 資料集訓練。每一段駕駛數據不僅標註了車輛「做了什麼」,更註明了「為什麼這樣做」。
例如,「減速並左變換車道,是因為前方有助動車等紅燈,且左側車道空閒」。這意味著模型學會的是基於因果關係的推理,而非對固定模式的死記硬背。
同時,基於模組化 VLA 架構,輝達 Alpamayo-R1 將面向物理人工智慧應用預訓練的視覺語言模型 Cosmos-Reason,與基於擴散模型的軌跡解碼器相結合,可實時生成動態可行的規劃方案;以及多階段訓練策略,先透過監督推理推理推理能力,再利用學習(RL)優化的規劃方案;以及多階段訓練策略,先透過監督推理的推理能力,再利用學習(RL)。
輝達公佈數據顯示:Alpamayo-R1 在複雜場景下的軌跡規劃表現提升了 12%,近距離碰撞率減少 25%,推理品質提升 45%,推理-動作一致性增強 37%。模型參數從 0.5B 擴展至 7B 的過程中,效能持續改善。車載道路測試驗證了其實時性表現(延遲 99 毫秒)及城市場景部署的可行性。
也因此,輝達 Alpamayo-R1 有望為 L4 自動駕駛帶來能力的躍遷,Robotaxi 有望安全地融入真實、混亂的公開道路。
從這次開源 Alpamayo-R1,可以再次看出輝達在自動駕駛領域的野心,已經不滿足於只是硬體供應商,而是要做成自動駕駛賽道的安卓。
其實,早在今年 10 月份,輝達就對外低調發表了 Alpamayo-R1 大模型。而在華盛頓 GTC 大會上,輝達發表了自動駕駛平台-NVIDIA DRIVE AGX Hyperion 10。
Hyperion 10 被認為是輝達自動駕駛的「身體」,而 Alpamayo-R1 則是自動駕駛的大腦。
值得注意的是,Hyperion 10 實現了「從仿真到實車」的閉環:在雲端,DGX 超級電腦使用 DRIVE Sim 產生高保真仿真數據,用於訓練 DRIVE AV 模型;在車端,Hyperion 10 的感測器數據與 Thor 晶片無縫對接。
因此,如果一家車企想快速推出具備 L4 級能力的車型,不需要再分別組建龐大的硬體整合、軟體演算法和資料訓練團隊,採用輝達的整套方案可以快速實現上車。
同時,輝達也在建構一個「安卓式」的 Robotaxi 生態,並對外公佈了明確的落地時間表:2027 年起部署 10 萬輛 Robotaxi。
目前,輝達已宣布與 Uber、賓士、Stellantis、Lucid 等公司合作,共同打造「全球最大 L4 級自動駕駛車隊」。截至 2025 年 10 月,輝達的雲端平台已累積超過 500 萬小時的真實道路數據。
輝達的入場,正在將 Robotaxi 的競爭從單一的技術比拼,引向生態模式的對決。封閉模式除了導致重複的研發投入,更深刻的弊端是形成了「資料孤島」。 Waymo 的美國道路經驗難以惠及中國車企,每位玩家獨立且緩慢地跨越技術曲線。
輝達的開放生態,有機會在確保資料隱私和安全的前提下,推動生態內玩家分享經過匿名化處理的特徵資料。例如,A 車企在特定路口遇到的極端場景數據,可以轉換為脫敏後的訓練特徵,幫助 B 車商的模型更快辨識類似風險。
如果輝達能夠成為自動駕駛領域的安卓,將有望帶動整個生態的技術迭代速度從線性轉變為指數級提升。這不僅是技術共享,更是成本共擔。共同因應長尾場景這一行業最大難題的邊際成本,將隨著生態的擴大而持續降低。
元戎啟行 CEO 周光預測,VLA 帶來的可能是「斷層式的領先」,並成為下一代競爭的關鍵變數。
DeepWay 深向 CTO 田山告訴筆者,VLA 是目前自動駕駛行業非常火的一項技術,研究者眾多,能極好地提高自動駕駛模型的泛化能力及推理能力,輝達開源 Alpamayo-R1,使得這項很火且很有前途的自動駕駛技術有更多的人可以參與研究並做出智能領域,能積極推進智能功能的應用
不過,Alpamayo-R1 目前要滿足車規級時延,還需要在 RTX A6000 ProBlackwell 等級的卡片上運行——這張卡的 INT8 算力高達 4000T,是 Thor 的 6 倍左右。
輝達的商業模式決定了,其開源是為了更好地銷售其硬體和全端解決方案。 Alpamayo-R1 模型與輝達的晶片(如 Thor)及開發平台(如 Drive)深度綁定,可實現更高的算力利用率。
這意味著,選擇輝達生態在獲得便利的同時,也意味著在核心算力上與其深度綁定。
另外,DeepWay 深向 CTO 田山嚮筆者指出,VLA 是不是最佳的自動駕駛技術,目前還在實踐過程中,而 Alpamayo-R1 模型工具鏈基於輝達的平台,對很多開發者來說也是一種限制,所以也有很多其他的技術和其他的計算平台在推進自動駕駛技術發展。
此外,L4 自動駕駛的落地或 Robotaxi 的規模化商業化,也與政策與法規息息相關。同時,如何在合規框架內運作、如何透過安全評估、如何在資料利用與隱私保護間取得平衡,這些能力的重要性,並不亞於科技本身。
輝達的黃仁勳一直將 Robotaxi 視為「機器人技術的首個商業化應用」,輝達一直要做的不是一輛無人出租車,而是讓所有玩家都能做出無人出租車的技術底座。如今,他正試圖透過開源 VLA,為這個應用程式打造一條可以快速複製的生產線。
但最終能否透過開源降低進入門檻,加速推動 L4 自動駕駛到來,讓科技的潮水湧向更廣闊的商業海岸,輝達 Alpamayo-R1 車型的開源,只是遊戲的開始,後面還有門檻要邁,還需要市場來驗證。
