DeepSeek Math-V2 以接近完美的 Putnam 分數和金牌 IMO 表現樹立新標準
新聞摘要
中國人工智慧新創公司 DeepSeek 發布了 DeepSeekMath-V2,這是一個突破性的開源數學推理模型,其性能水平超越了許多商業系統。這個擁有 6850 億參數的模型,建立在 DeepSeek-V3.2-Exp-Base 架構之上,在著名的 Putnam 2024 數學競賽中取得了驚人的 118 分(滿分 120 分),超過了人類最佳成績 90 分。該模型還在 2025 年國際數學奧林匹亞競賽 (IMO) 和 2024 年中國數學奧林匹亞競賽 (CMO) 中都達到了金牌水平。
DeepSeekMath-V2 與以往的數學人工智慧系統的不同之處在於其創新的驗證方法。該模型並非僅僅針對正確的最終答案進行優化,而是採用了精密的「驗證器優先」架構,確保數學證明不僅準確,而且在邏輯上嚴謹且完整。這代表了人工智慧系統處理數學推理方式的根本轉變。
該模型引入了一個新穎的三組件系統:一個生成數學解法的證明生成器、一個評估證明品質和可靠性的驗證器,以及一個確保驗證過程本身保持真實且不會虛構不存在的錯誤的元驗證器。這種分層方法解決了先前系統中的一個關鍵弱點,即模型可能通過有缺陷的推理得出正確的答案。
DeepSeek 的研究團隊使用群組相對策略優化 (GRPO) 在來自數學奧林匹亞競賽的超過 17,500 個證明風格問題上訓練了驗證器。然後,該系統通過連續精煉能力得到增強,使其能夠在其 128,000 個 token 的上下文窗口中跨多個通道迭代地改進證明。
在 Google DeepMind 開發的 IMO-ProofBench 評估中,DeepSeekMath-V2 在基本問題上表現出優於 DeepMind 自己的 DeepThink IMO-Gold 系統的性能,並且在高級挑戰中保持了競爭力。該模型在多個數學類別(包括代數、幾何、數論和組合數學)中優於包括 Gemini 2.5 Pro 在內的幾個領先的商業系統。
對於人工智慧研究社群來說,或許最重要的是,DeepSeekMath-V2 已根據寬鬆的 Apache 2.0 許可證發布,使其可免費用於學術和商業用途。該模型可以使用多 GPU 推理在具有 80GB GPU 記憶體的系統上運行,從而普及了對尖端數學人工智慧功能的訪問。
競爭格局揭示了有趣的動態。雖然 OpenAI 的 GPT-5 在某些基準測試(如 AIME 2025 競賽,94% 對比 DeepSeek 的 76%)中保持優勢,但 DeepSeek 的開源模型表明,世界一流的數學推理能力不必鎖定在專有系統之後。此外,DeepSeekMath-V2 的成本效益更高,輸入 token 的定價約低 40%,輸出 token 的定價約低 80%(與 GPT-5 相比)。
DeepSeekMath-V2 的發布代表了先進人工智慧普及化的一個重要里程碑。通過在精英數學競賽中取得金牌性能,同時保持開源和成本效益,DeepSeek 挑戰了這樣一個假設,即尖端人工智慧能力必須來自資金雄厚的西方科技巨頭。該模型在 Putnam 2024 考試中的成功,超過了人類的最佳表現,表明人工智慧系統正在達到新的數學複雜程度。
對於研究人員和開發人員來說,該模型在 Hugging Face 上提供,並提供全面的文檔和 DeepSeek-V3.2-Exp GitHub 儲存庫,這意味著可以立即進行實際應用。該系統不僅能夠提供答案,還能提供嚴謹、可驗證的證明,這為自動定理證明、數學教育和科學研究應用開闢了新的可能性。
更廣泛的影響超出了數學範疇。DeepSeek 的驗證器優先方法可能會影響人工智慧系統在其他需要嚴格推理的領域的開發方式,例如軟體工程中的形式驗證、科學假設檢驗和邏輯論證。元驗證概念確保人工智慧評論保持誠實和有根據,解決了在高風險應用中對人工智慧可靠性和幻覺日益增長的擔憂。
行業觀察家指出,DeepSeekMath-V2 的發布加劇了人工智慧領域的競爭,特別是隨著中國人工智慧公司繼續生產與西方同行匹敵或超越的模型。該模型的混合專家架構在推理過程中僅激活其 6850 億個參數中的 210 億個,展示了在能力與計算效率之間取得平衡的複雜工程。
隨著人工智慧領域繼續快速發展,DeepSeekMath-V2 證明了開源開發可以達到以前認為需要大量企業資源的性能水平。該模型的成功可能會加速開源人工智慧開發的趨勢,同時引發人們對封閉源商業模式在競爭日益激烈的環境中可持續性的質疑。
對於數學人工智慧研究社群來說,此版本提供了一個強大的新工具,用於探索自我驗證推理系統。在保持證明品質的同時擴展測試時計算的能力,為更強大的系統提供了途徑,這些系統可以解決沒有已知解決方案的開放數學問題。這種方法是否會成功地擴展到其他推理領域,仍然是未來研究的一個開放且引人入勝的問題。