據 AI 評測機構 Artificial Analysis 報告,中國人工智慧 (AI) 新創 DeepSeek 推出的 R1-0528 模型,智慧指數從 60 分跳升至 68 分,超越 xAI、Meta、Anthropic 等美國 AI 同業,與 Google Gemini 2.5 Pro 並列全球第二,成為開源模型領域領導者。
評測成績亮眼 追平 Google 水準
Artificial Analysis 是專門進行 AI 模型比較和分析的獨立機構,針對頂尖 AI 模型進行 7 項主流評估,建構出綜合性的智慧指數。該機構指出 DeepSeek R1-0528 版本的 8 分進步幅度,相當於 OpenAI 從 o1 模型進步到 o3 模型的差距(從 62 分提升至 70 分)。
這意味著 DeepSeek R1 的智慧水準已經超越:
- xAI 的 Grok 3 mini(高階版)
- 輝達的 Llama Nemotron Ultra
- Meta 的 Llama 4 Maverick
- 阿里巴巴的通義千問 Qwen 3 253B
並與 Google 的 Gemini 2.5 Pro 達到相同水準。
多項能力顯著提升
而 DeepSeek R1-0528 在多個測試項目都展現大幅進步。首先是數理能力的躍進。在 AIME 2024 數學競賽測試中提升 21 分,顯示其數學推理能力大幅增強。
第二,程式設計表現優異。LiveCodeBench 程式碼生成測試進步 15 分,在 Artificial Analysis 的程式設計能力指數中,已追平 Gemini 2.5 Pro,僅次於 OpenAI 的 o4-mini 和 o3 模型。
第三,GPQA Diamond 科學推理測試提升 10 分,《人類最後考卷》推理與知識測試也進步 6 分。
技術架構維持不變 訓練策略是關鍵
值得注意的是,R1-0528 是一個訓練後更新版本,其核心 V3/R1 架構並未改變——依舊 6710 億個總參數,但每次推理時只啟動其中 370 億個參數。這是混合專家模型 (Mixture of Experts) 的典型架構特徵。顯示 DeepSeek 透過改善訓練策略,而非增加模型規模來提升效能。
不過新版本的「思考」時間更長,在完成智慧指數評估時消耗了 9900 萬個 Token,比初代 R1 的 7100 萬個 Token 多出 40%。儘管如此,這仍比 Google Gemini 2.5 Pro 的 Token 消耗量少 30%。
中美 AI 競爭白熱化
這次 DeepSeek R1 模型的版本更新凸顯了幾個重要趨勢:
第一,開源與閉源之間的差距縮小。DeepSeek 1 月發布的 R1 模型是第一個達到全球排名第二的開源權重模型 (open-weight) ,證明開源技術在智慧增益方面能與閉源專有模型保持同步。而該公司 5 月底公布的新版本,也再次讓它重返第二名。
開放權重模型是指 AI 公司不只提供訓練好的模型供大眾使用,還會把模型內部的核心參數 (也就是「權重」) 完全公開。這些權重參數就像是 AI 模型的「大腦配方」,記錄著模型在大量資料訓練過程中學到的所有知識和判斷邏輯。
有了這些資料,其他開發者就能深入分析模型的運作原理,甚至根據自己的特殊需求來調整和優化模型。
第二,中美 AI 模型水準並駕齊驅。來自中國的 AI 實驗室模型幾乎完全追平美國同業,DeepSeek 目前在 Artificial Analysis 智慧指數中,甚至已領先 Anthropic 和 Meta 等美國 AI 實驗室。
第三,「強化學習 (RL)」成效顯著。DeepSeek 在保持原有架構和預訓練資料不變的情況下,透過強化學習技術實現智慧水準的顯著提升。這種方法相較於擴展預訓練,類似讓 AI「讀更多書、花更多時間學習」來變聰明的方式,所需要的算力更低,為 GPU 資源相對緊張的 AI 實驗室提供了高效的發展路徑。
OpenAI 曾透露其 o1 到 o3 模型的強化學習計算規模擴大了 10 倍,而 DeepSeek 此次表現證明他們有能力跟上 OpenAI 在強化學習算力擴展方面的步伐,不僅展現了中國 AI 技術的快速發展,也預示著全球 AI 競爭將更加激烈。
新聞來源 (不包括新聞圖片): 鉅亨網