輝達 (NVDA.US) 在年度消費性電子展(CES)上投下震撼彈,執行長黃仁勳宣布,正式開源旗下首個推理型「視覺 - 語言 - 動作」(Visual-Language-Action, VLA)模型 Alpamayo 1,不僅代表輝達在無人駕駛領域邁出關鍵性的一大步,更預告了「實體 AI」(Physical AI)的「ChatGPT 時刻」已經到來,即將徹底改變機器對真實世界的理解、推理與行動方式。
黃仁勳在發布會上激動地指出:「實體 AI 的 ChatGPT 時刻已然降臨——機器開始理解、推理並在真實世界中採取行動。無人計程車將是首批受益者。」
他強調,Alpamayo 平臺的核心使命,是為自動駕駛汽車帶來強大的「推理」能力,使其能夠像人類駕駛一樣,在面對罕見或複雜場景時,進行深入的思考、制定安全的駕駛策略,並能解釋其決策背後的邏輯。這種可解釋性與安全性,正是建構可規模化、可靠自動駕駛技術的基石。
輝達此次開源的 Alpamayo 1 模型,採用了百億級(100 億)參數的龐大架構,其設計理念旨在打造能在遭遇意外情況時,例如交通號誌突然故障、臨時道路施工等「長尾問題」場景,能夠「思考」並提出解決方案的未來車輛。
車載電腦將不再僅僅是簡單地感知路況,而是能夠接收來自攝影機、雷達等感測器的大量即時視訊輸入,將其分解為一步步的推理流程,進而生成出安全、合理的駕駛軌跡。
這項技術的實際執行的速度超乎想像。黃仁勳同時宣布,首款搭載輝達技術的量產車款,預計將在今年第一季正式於美國道路上投入使用,宣告自動駕駛技術已從實驗室階段,大步邁向商業應用。
超越傳統模型的智慧核心
推理型 VLA 技術是 Alpamayo 平台的靈魂所在。不同於傳統的視覺 - 語言 - 動作模型,推理型 VLA 不僅限於將視覺輸入直接粗略地映射到駕駛動作,而是巧妙地整合了明確的 AI 推理功能。
這項技術賦予了 AI 系統逐步解決複雜問題的能力,並能產生類似於人類思考過程的「推理痕跡」(reasoning traces)。
簡單來說,推理型 VLA 模型是一種統一化的 AI 模型,它將三個基礎核心功能——視覺感知、語言理解和動作生成——與逐步推理緊密結合在一起。這些系統經過海量網際網路規模任務的預先訓練,涵蓋語言生成和視覺連結,藉此累積通用知識和感知基礎。
當推理型 VLA 模型面臨一個複雜的駕駛任務時,它會將其分解成數個易於管理的子問題,並以可解釋的形式闡明其推理過程。這不僅顯著提升了模型的決策準確性,更能對模型採取的行動提供一定程度的自我反思能力,極大增強了自動駕駛系統的透明度與安全性。
透過一個交通實例來理解:當一輛配備 Alpamayo 系統的車輛接近一個繁忙的十字路口時,系統可能會進行如下的人類般推理流程:「我偵測到前方有一個停車標誌(Stop Sign),同時左側有車輛正在駛來,人行道上還有行人準備過馬路。因此,我應該減速,完全停車,等待行人通過人行橫道,確認完全安全之後,才能繼續向前行駛。」
為了建構這種複雜的推理 VLA 模型,需要三大基本 AI 功能的共同合作:
- 視覺感知(Visual Perception): 負責處理來自攝影機、毫米波雷達或光學雷達(LiDAR)等各種感知感測器的即時數據流。
- 語言理解(Language Understanding): 透過自然語言處理技術,解釋駕駛指令、上下文提示以及潛在的對話輸入(未來發展方向)。
- 動作與決策制定(Action and Decision-Making): 利用融合後的感官資訊和語言資訊,安全地規劃、選擇並執行任務,同時輸出可供查核的解釋性推理痕跡。
輝達強調,Alpamayo 1 模型本身並非直接設計為運行在車輛的車載電腦中,而是作為一個大規模的「教師模型」(Teacher Model)。開發者可以利用這個強大的基礎模型進行微調(Fine-tuning),並將其精華萃取融入到他們各自的自動駕駛技術堆疊骨幹中,以應對各種現實世界中的挑戰。
輝達也預告,Alpamayo 家族的未來模型將擁有更大的參數規模、更精細的推理細節、更強大的輸入輸出彈性,並將開放商業使用選項。
完整開放生態系 加速全球 L4 級自駕技術部署
輝達此次推出的 Alpamayo 平臺,不僅是一個單一模型,更是一個由開源模型、模擬框架和大規模資料集共同構築的完整開放生態系統。這一開放式架構旨在鼓勵全球汽車開發者和研究團隊共同參與,加速推進安全且可靠的 L4 級自動駕駛技術。
除了 Alpamayo 1 推理模型外,輝達同時釋出了名為「AlpaSim」的端對端模擬框架,並已於 GitHub 平臺上開源。AlpaSim 是專為高傳真(High-fidelity)自動駕駛開發所設計。它提供了極為真實的感測器建模能力、可自由配置的交通動態,以及一個可擴展的「閉環測試環境」(Closed-loop testing environment)。這使得開發者能夠在虛擬世界中進行快速的策略驗證和最佳化,大幅縮短了實際道路測試的時間與成本。
全球最大規模開放資料集支援
為餵養並訓練出更具通用性和強大推理能力的人工智慧,輝達還提供了目前自動駕駛領域最多元化、最大規模的開放資料集之一。
這些數據集包含了超過 1,700 小時的實際駕駛資料,涵蓋了最廣泛的地理位置和駕駛條件,特別收錄了大量複雜、罕見的真實世界「邊緣案例」(edge cases)。這些珍貴的資料對於推進像 Alpamayo 這樣的推理架構而言,是至關重要的養分,現已可在 Hugging Face 平臺上取得。
Alpamayo 平台的這些工具,共同創造了一個「自我強化的開發循環」(Self-reinforcing development cycle)。開發者可以利用這些資源,在他們專有的車隊資料上對模型進行微調。
跨產業 AI 佈局 輝達全面開放模型家族
輝達在本次 CES 上展示的開源決心,並不僅限於自動駕駛領域。輝達 5 日同時發布了涵蓋多個重要產業方向的全新開源模型、資料集和開發工具,以全面推動各行各業的人工智慧發展進程。
這些模型家族包括專用於代理式 AI(Agent AI)的輝達 Nemotron 家族、專為實體 AI 打造的輝達 Cosmos 平臺、適用於機器人的輝達 Isaac GR00T,以及聚焦生物醫學領域的輝達 Clara。
輝達提供的開源資源亦包括了訓練框架、以及全球最大的開放多模態資料集合之一,具體資料規模令人震驚:涵蓋了 10 兆語言訓練標記、50 萬個機器人軌跡、45.5 萬個蛋白質結構,以及前面提到的 100 TB 車輛感測器資料。
在代理式 AI 基礎模型方面,Nemotron 家族新增了與語音、多模態檢索增強生成(RAG)和安全相關的新模型。
- Nemotron Speech: 包含業界領先的開源模型,專為即時字幕和語音 AI 應用提供即時、低延遲的語音辨識服務。
- Nemotron RAG: 包含了全新的嵌入(embedding)模型和重排序視覺語言模型,能為開發者提供高度準確的多語言與多模態資料洞察能力。
在實體 AI 和機器人學領域,輝達的佈局顯得雄心勃勃:
- Cosmos 開放世界基礎模型: 該平臺為加速實體 AI 的開發和驗證帶來了「類人推理」和「世界生成」的能力,讓機器能夠更好地理解複雜環境並進行互動。
- Isaac GR00T N1.6: 這是一個專門為人形機器人設計的開放推理型 VLA 模型,旨在實現複雜的全身控制,並結合輝達 Cosmos Reason 功能,以達到更優異的推理和上下文理解能力。
輝達表示,全球領先的科技公司,包括博世(Bosch)、CodeRabbit、CrowdStrike、Cohesity、Fortinet、Franka Robotics、Humanoid、Palantir、Salesforce、ServiceNow、日立(Hitachi)和 Uber 等,都已經開始採用並基於輝達的這些開源模型技術進行開發與創新。
(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)新聞來源 (不包括新聞圖片): 鉅亨網