DeepSeek Math-V2がほぼ完璧なPutnamスコアと金メダルIMOパフォーマンスで新たな基準を確立
ニュース概要
中国のAIスタートアップDeepSeekは、画期的なオープンソースの数学的推論モデルであるDeepSeekMath-V2をリリースしました。このモデルは、多くの商用システムを凌駕する性能を達成しています。DeepSeek-V3.2-Exp-Baseアーキテクチャ上に構築された6850億のパラメータを持つこのモデルは、権威あるPutnam 2024数学コンテストで120点満点中118点という驚異的なスコアを達成し、人間の最高スコアである90点を上回りました。また、国際数学オリンピック(IMO)2025と中国数学オリンピック(CMO)2024の両方で金メダルレベルのパフォーマンスを達成しました。
DeepSeekMath-V2がこれまでの数学AIシステムと一線を画すのは、検証に対する革新的なアプローチです。単に正解を最適化するのではなく、数学的証明が正確であるだけでなく、論理的に厳密かつ完全であることを保証する洗練された「検証者優先」アーキテクチャを採用しています。これは、AIシステムが数学的推論にアプローチする方法における根本的な転換を意味します。
このモデルは、数学的な解を生成する証明生成器、証明の質と健全性を評価する検証器、検証プロセス自体が真実であり、存在しないエラーを幻視しないことを保証するメタ検証器という、斬新な3つのコンポーネントシステムを導入しています。この階層化されたアプローチは、モデルが欠陥のある推論を通じて正解にたどり着く可能性があった、これまでのシステムの重大な弱点に対処します。
DeepSeekの研究チームは、数学オリンピックやコンテストからの17,500以上の証明スタイルの問題を使用して、Group Relative Policy Optimization(GRPO)を用いて検証器を訓練しました。その後、システムはシーケンシャルリファインメント機能で強化され、128,000トークンのコンテキストウィンドウ内で複数回のパスにわたって証明を反復的に改善できるようになりました。
Google DeepMindが開発したIMO-ProofBench評価において、DeepSeekMath-V2は、基本的な問題ではDeepMind自身のDeepThink IMO-Goldシステムよりも優れたパフォーマンスを示し、高度な課題では競争力を維持しました。このモデルは、代数、幾何学、数論、組み合わせ論を含む複数の数学カテゴリで、Gemini 2.5 Proを含むいくつかの主要な商用システムを上回りました。
AI研究コミュニティにとっておそらく最も重要なのは、DeepSeekMath-V2が寛容なApache 2.0ライセンスの下でリリースされ、学術および商用利用の両方で自由に使用できるようになったことです。このモデルは、マルチGPU推論を使用して80GBのGPUメモリを搭載したシステムで実行でき、最先端の数学AI機能へのアクセスを民主化します。
競争環境は興味深い力学を明らかにしています。OpenAIのGPT-5は、AIME 2025コンテスト(DeepSeekの76%に対して94%)のような特定のベンチマークで優位性を維持していますが、DeepSeekのオープンソースモデルは、世界クラスの数学的推論能力が独自のシステムに閉じ込められている必要はないことを示しています。さらに、DeepSeekMath-V2は、GPT-5と比較して、入力トークンの価格が約40%低く、出力トークンの価格が80%低く、大幅に費用対効果が高くなっています。
DeepSeekMath-V2のリリースは、高度なAIの民主化における重要なマイルストーンです。エリート数学コンテストで金メダル級のパフォーマンスを達成しながら、オープンソースで費用対効果の高い状態を維持することで、DeepSeekは、最先端のAI機能が資金力のある欧米のテクノロジー大手から生まれるという前提に異議を唱えました。Putnam 2024試験でのモデルの成功は、人間の最高のパフォーマンスを上回っており、AIシステムが新たなレベルの数学的洗練に達していることを示唆しています。
研究者や開発者にとって、包括的なドキュメントを備えたHugging Faceでのモデルの利用可能性と、DeepSeek-V3.2-Exp GitHubリポジトリは、すぐに実用的なアプリケーションが可能であることを意味します。答えだけでなく、厳密で検証可能な証明を提供するシステムの能力は、自動定理証明、数学教育、科学研究アプリケーションに新たな可能性を開きます。
より広範な影響は数学を超えて広がります。DeepSeekの検証者優先アプローチは、ソフトウェアエンジニアリングにおける形式検証、科学的仮説検定、論理的議論など、厳密な推論を必要とする他の分野向けにAIシステムがどのように開発されるかに影響を与える可能性があります。AIの批判が誠実で根拠のあるものであることを保証するメタ検証の概念は、ハイステークスアプリケーションにおけるAIの信頼性と幻覚に関する高まる懸念に対処します。
業界関係者は、DeepSeekMath-V2のリリースがAIセクターにおける競争を激化させていると指摘しています。特に、中国のAI企業が欧米の企業に匹敵するか、それを上回るモデルを生産し続けているからです。推論中に6850億のパラメータのうち210億のみをアクティブにするモデルの混合エキスパートアーキテクチャは、能力と計算効率のバランスをとる洗練されたエンジニアリングを示しています。
AI分野が急速な進化を続ける中、DeepSeekMath-V2は、オープンソース開発が、これまで大規模な企業リソースが必要であると考えられていたパフォーマンスレベルを達成できることの証拠として立っています。このモデルの成功は、オープンAI開発へのトレンドを加速させると同時に、競争が激化する状況においてクローズドソースのビジネスモデルの持続可能性について疑問を投げかける可能性があります。
数学AI研究コミュニティにとって、このリリースは、自己検証可能な推論システムを探索するための強力な新しいツールを提供します。証明の質を維持しながらテスト時の計算をスケールする能力は、既知の解決策のない未解決の数学的問題に取り組むことができる、より有能なシステムへの道筋を示唆しています。このアプローチが他の推論ドメインにうまく拡張されるかどうかは、今後の研究にとってオープンで魅力的な問題です。