今年 1 月,梁文鋒帶領團隊打造的 DeepSeek-R1 相關論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》發布,如今該成果成功登上全球頂刊期刊《Nature》封面,並介紹梁文鋒帶隊用高度強化學習 (RL) 為大模型推理能力開闢新路徑的高度成就。
開源之後,R1 在 Hugging Face 成為最受歡迎的模型,下載量突破 1090 萬次,而且它是全球首個經過同行評審的主流大模型。
從一篇 arXiv 論文到 Nature 封面,DeepSeek 團隊再次憑藉著實力為 AI 推理的未來鋪路。值得一提的是,補充資料首次公開 R1 訓練成本,僅 29.4 萬美元,即便加上約 600 萬美元的基礎模型成本,也遠低於 OpenAI、Google 訓練 AI 的成本。
發表在《自然》雜誌的新版 DeepSeek-R1 論文,與今年 1 月未經同行評審的初版有較大差異,披露了更多模型訓練的細節,並正面回應了模型發佈之初的蒸餾質疑。
研究團隊的出發點大膽且純粹,他們徹底拋開對人類推理軌蹟的依賴,選擇強大的基礎模型 DeepSeek - V3 Base,跳過傳統的 SFT 階段,採用極其簡潔的強化學習框架。在此框架中,只告知模型任務格式,即回答需包含被 標籤包裹的「思考過程」和被 < answer > 標籤包裹的「最終答案」,以及獎勵信號,根據最終答案是否正確給予獎勵,不考慮思考方法。
在沒有解題步驟的對錯評判,沒有思維方式的引導下,DeepSeek-R1 Zero 開啟「野蠻生長」。以 AIME 2024 為例,其平均解題準確率 (pass@1) 從最初的 15.6% 飆升至 77.9%,配合「自洽解碼」技術更是高達 86.7%,遠超 AIME 競賽中所有人類選手的平均水準。
在能力提升過程中,R1 Zero 展現出自我進化行為,其「思考時間」自主增加,生成的文本長度穩定上升,學會用更長「思維鏈」探索解題策略,也湧現出高階推理策略,如自我反思、系統性探索替代解法等。
OPEN
研究人員也觀察到模型出現「頓悟時刻」,反思過程中使用「wait」一詞頻率急劇增加,標誌著推理模式的明顯轉變,詮釋了強化學習的魅力。
為解決 R1 Zero 可讀性差、通用能力平平的問題,團隊設計多階段訓練流程。經過冷啟動、多輪強化學習和大規模監督微調等,DeepSeek - R1 在多個基準測試中表現提升 17% - 25%,在高難度推理任務上保持頂尖水準。
在訓練方法上,團隊採用 GRPO 演算法,相較於 PPO 顯著降低資源消耗且穩定高效。獎勵設計採雙軌制,推理任務用基於規則的獎勵,通用任務用基於模型的獎勵,避免「獎勵投機」。訓練過程精心設計,每個階段都有不同重點和參數調整。
不過,DeepSeek - R1 也存在能力限制,如在結構化輸出和工具使用方面有欠缺,對提示詞敏感,強化學習在軟體工程任務上效率不高等。同時,純強化學習面臨獎勵投機挑戰。
儘管年初 OpenAI 指責可能使用 ChatGPT 輸出訓練,但團隊否認稱 DeepSeek-V3-Base 的預訓練數據全部來源於網路,反映自然數據分佈,「可能包含由先進模型 (如 GPT-4) 生成的內容」,但 DeepSeek-V3-Base 並沒有引入在合成數據集上進行大規模監督蒸餾的「冷卻」階段。
DeepSeek-V3-Base 的數據截止時間為 2024 年 7 月,當時尚未發佈任何公開的先進推理模型,這進一步降低了從現有推理模型中無意蒸餾的可能性。
更重要的是,DeepSeek-R1 論文的核心貢獻也就是 R1-Zero,不涉及從先進模型進行蒸餾,其強化學習 (RL0 元件是獨立訓練的,不依賴於 GPT-4 或其他類似能力模型的輸出或指導。
《Nature》審查者和其他研究人員對 DeepSeek 的推理方法表示認可,認為其開啟了一場革命,為改進現有大語言模型 (LLM) 推理能力提供了新方向。
8 位審稿人共提出上百條具體意見,既包括對單詞單複數等細節的修改,也涵蓋對論文中將 AI「擬人化」的警示,以及對數據污染和模型安全性問題的關注,例如在修改意見中,審稿人敏銳地捕捉到了「將 DeepSeek-R1-Zero 開源」這一表述的模糊性,並提醒 DeepSeek,「開源」這一概念的界定仍存爭議,在使用相關表述時需要格外注意。
這位審稿人還要求 DeepSeek 在論文中附上 SFT 和 RL 數據的連結,而不僅僅是提供數據樣本。
作為國產開源 AI 模型走向世界的代表,DeepSeek-R1 在全球開源社群中擁有極高的口碑,而在本次登上《自然》雜誌封面後,DeepSeek 補充了這一模型的更多資訊,為開源社區提供了科研參考、模型復現思路以及應用支持。
《Nature》呼籲更多的 AI 公司將其模型提交給同行進行評審,確保其聲明經過驗證和澄清。在此背景下,DeepSeek 的開源模式不僅展現國產 AI 的技術實力,也有望成為全球 AI 產業在科學研究透明度方面的參考典範。
新聞來源 (不包括新聞圖片): 鉅亨網