DeepSeek Math-V2 以接近完美的 Putnam 分数和金牌 IMO 表现树立新标准

2025-11-30
DeepSeek
6 min

新闻摘要

中国人工智能初创公司深势科技发布了 DeepSeekMath-V2,这是一个突破性的开源数学推理模型,其性能水平超越了许多商业系统。该模型拥有 6850 亿参数,基于 DeepSeek-V3.2-Exp-Base 架构构建,在著名的 Putnam 2024 数学竞赛中取得了 118 分(满分 120 分)的惊人成绩,超过了人类最佳成绩 90 分。该模型还在 2025 年国际数学奥林匹克竞赛 (IMO) 和 2024 年中国数学奥林匹克竞赛 (CMO) 中获得了金牌水平的成绩。

DeepSeekMath-V2 与以往的数学人工智能系统不同之处在于其创新的验证方法。该模型并非仅仅优化最终答案的正确性,而是采用了一种复杂的“验证器优先”架构,确保数学证明不仅准确,而且在逻辑上严谨和完整。这代表了人工智能系统处理数学推理方式的根本转变。

该模型引入了一个新颖的三组件系统:一个生成数学解法的证明生成器,一个评估证明质量和可靠性的验证器,以及一个确保验证过程本身保持真实且不会虚构不存在的错误的元验证器。这种分层方法解决了先前系统中的一个关键弱点,即模型可能通过有缺陷的推理得出正确的答案。

深势科技的研究团队使用 Group Relative Policy Optimization (GRPO) 在来自数学奥林匹克竞赛的超过 17,500 个证明风格问题上训练了验证器。然后,该系统通过顺序细化功能得到增强,使其能够在 128,000 个 token 的上下文窗口中跨多个通道迭代地改进证明。

在 Google DeepMind 开发的 IMO-ProofBench 评估中,DeepSeekMath-V2 在基本问题上表现出优于 DeepMind 自己的 DeepThink IMO-Gold 系统的性能,并在高级挑战中保持竞争力。该模型在代数、几何、数论和组合数学等多个数学类别中优于包括 Gemini 2.5 Pro 在内的多个领先商业系统。

对于人工智能研究界来说,也许最重要的是,DeepSeekMath-V2 已在宽松的 Apache 2.0 许可下发布,使其可免费用于学术和商业用途。该模型可以使用多 GPU 推理在具有 80GB GPU 内存的系统上运行,从而普及了对尖端数学人工智能功能的访问。

竞争格局揭示了有趣的动态。虽然 OpenAI 的 GPT-5 在某些基准测试中保持优势,例如 AIME 2025 竞赛(94% 对比 DeepSeek 的 76%),但 DeepSeek 的开源模型表明,世界级的数学推理能力不必被锁定在专有系统中。此外,DeepSeekMath-V2 的成本效益更高,输入 token 的定价大约低 40%,输出 token 的定价大约低 80%,与 GPT-5 相比。

DeepSeekMath-V2 的发布代表了先进人工智能民主化的一个重要里程碑。通过在精英数学竞赛中取得金牌水平的成绩,同时保持开源和成本效益,深势科技挑战了这样一种假设,即尖端人工智能能力必须来自资金雄厚的西方科技巨头。该模型在 Putnam 2024 考试中的成功,超过了人类的最佳表现,表明人工智能系统正在达到新的数学复杂程度。

对于研究人员和开发人员来说,该模型在 Hugging Face 上的可用性以及全面的文档和 DeepSeek-V3.2-Exp GitHub 存储库意味着可以立即进行实际应用。该系统不仅能够提供答案,还能提供严谨、可验证的证明,这为自动定理证明、数学教育和科学研究应用开辟了新的可能性。

更广泛的影响超出了数学领域。深势科技的验证器优先方法可能会影响人工智能系统在其他需要严格推理的领域中的开发方式,例如软件工程中的形式验证、科学假设检验和逻辑论证。元验证概念确保人工智能评论保持诚实和有根据,解决了在高风险应用中对人工智能可靠性和幻觉日益增长的担忧。

行业观察家指出,DeepSeekMath-V2 的发布加剧了人工智能领域的竞争,尤其是在中国人工智能公司继续生产与西方同行匹敌或超越的模型之际。该模型的混合专家架构在推理过程中仅激活其 6850 亿参数中的 210 亿个,展示了在能力与计算效率之间取得平衡的复杂工程。

随着人工智能领域继续快速发展,DeepSeekMath-V2 证明了开源开发可以达到以前认为需要大量企业资源才能达到的性能水平。该模型的成功可能会加速开源人工智能开发的趋势,同时引发人们对在竞争日益激烈的环境中闭源商业模式可持续性的质疑。

对于数学人工智能研究界来说,此次发布提供了一个强大的新工具,用于探索自我验证推理系统。在保持证明质量的同时扩展测试时计算的能力,为构建更强大的系统指明了方向,这些系统可以解决没有已知解决方案的开放数学问题。这种方法是否能成功扩展到其他推理领域,仍然是未来研究的一个开放且引人入胜的问题。