在 Google I/O 2025 大會中,除了 Gemini 2.5 系列與 Veo 3 模型掀起話題之外,Google (GOOGL.US) 也悄然發布旗下首款擴散模型(Diffusion Model)Gemini Diffusion。雖非主舞台焦點,但這款新模型憑藉超高速語言生成能力與技術潛力,迅速引起 AI 社群高度關注。
Gemini Diffusion 是 Google 首次將擴散式(Diffusion)生成機制應用於人工智慧文字生成領域的實驗性產品。目前僅提供限量實驗體驗,須註冊候補名單才能試用。
與 GPT-4 等傳統自回歸語言模型不同,Gemini Diffusion 採用非自回歸的擴散架構,從隨機指令出發,經多輪精煉後生成完整文本。
這種全新方法不再逐字產出,而是一次性建構整段語意內容,提高語言生成效率與邏輯一致性,展現出大語言模型的新進化方向。
Gemini Diffusion 速度超快「不是開玩笑」
Gemini Diffusion 的一大亮點就是速度。根據實測,模型達到每秒產出 1479 個 token、啟動延遲僅 0.84 秒,遠超目前主流語言模型,包括 GPT-4、Claude 等,特別適合即時對話生成、智慧客服、互動式應用等場景。
Django 框架共同創辦人 Simon Willison 親自測試 Gemini Diffusion,輸入「建立模擬聊天應用」的提示後,模型在數秒內便產出含 HTML 與 JavaScript 的互動頁面,生成速度達每秒 857 token,展現出驚人的實用性與生成效率。
Willison 表示:「Google 說它快,真的不是開玩笑。」
外部基準測試成績亮眼:程式設計與數學推理表現強勢
Google DeepMind 將 Gemini Diffusion 與自家 Flash-Lite 模型進行對比,成績如下:
- HumanEval 程式碼測試通過率:89.6%(與 Gemini Flash-Lite 相當)
- AIME 2025 數學準確率:23.3%(勝過 Gemini Flash-Lite 的 20.0%)
- LiveCodeBench 即時編程得分:30.9%(高於 Gemini Flash-Lite 的 28.5%)
這些數據顯示 Gemini Diffusion 在程式設計、數學與邏輯推理任務上具備頂尖能力,有望成為 AI 工具開發的全新基礎架構。
知識與推理任務仍有進步空間
儘管在專業領域表現優秀,Gemini Diffusion 在通用任務方面仍略顯劣勢,與現今最強模型如 GPT-4 存在差距:
- MMLU 多任務問答得分:69.1%(GPT-4 為 86.4%)
- GPQA Diamond 科學推理:40.4%(低於 Gemini Flash-Lite 的 56.5%)
Google 引領擴散語言模型浪潮,AI 四巨頭中率先實作
此次發布,使 Google 成為「AI 四巨頭」微軟 (MSFT.US) 、Google、亞馬遜 (AMZN.US) 和 Meta (META.US) 中首家正式推出語言擴散模型的企業,對 AI 生態發展意義重大。
Google DeepMind 主任科學家 Jack Rae 表示,Gemini Diffusion 的發布「感覺就像 AI 發展中的一座重要里程碑」。
Gemini Diffusion 展現了擴散大型語言模型(Diffusion Large Language Model、dLLM) 的未來可能性,並具備以下關鍵應用優勢:
- 智慧代理加速:高效處理長篇任務與多步驟規劃。
- 進階推理能力:內建糾錯機制,修正幻覺與錯誤資訊。
- 生成過程可控:支持內容編輯與非線性 token 排列。
- 部署於邊緣設備:低延遲、高效率,適合 IoT 或資源受限環境。
專家預測,未來語言模型可能結合擴散模型的高速生成能力與自回歸模型的精細潤飾特性。例如:先由擴散模型快速構建初稿,再由自回歸模型進行優化;反之亦然。
這種混合策略可能成為下一代 AI 模型研發重點,挑戰目前由 GPT-4、Claude 3 等模型主導的 LLM 生態,推動自然語言處理(NLP)技術的再進化。
Gemini Diffusion 的誕生不僅突破語言生成速度瓶頸,也為語言模型架構開創新方向。隨著擴散模型技術持續成熟,未來 LLM 的速度、效率與控制力將全面提升,AI 創作與智慧應用的發展也將邁入全新階段。
(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)新聞來源 (不包括新聞圖片): 鉅亨網