DeepSeek Math-V2 Établit une Nouvelle Norme avec un Score Putnam Presque Parfait et une Performance IMO de Médaille d'Or
Résumé de l'actualité
La startup chinoise d'IA DeepSeek a lancé DeepSeekMath-V2, un modèle de raisonnement mathématique open source révolutionnaire qui a atteint des niveaux de performance dépassant de nombreux systèmes commerciaux. Le modèle de 685 milliards de paramètres, basé sur l'architecture DeepSeek-V3.2-Exp-Base, a obtenu un score remarquable de 118 points sur 120 au prestigieux concours de mathématiques Putnam 2024, dépassant le meilleur score humain de 90 points. Le modèle a également atteint un niveau de performance de médaille d'or à la fois aux Olympiades internationales de mathématiques (OIM) 2025 et aux Olympiades mathématiques chinoises (OMC) 2024.
Ce qui distingue DeepSeekMath-V2 des systèmes d'IA mathématiques précédents, c'est son approche innovante de la vérification. Plutôt que de simplement optimiser pour des réponses finales correctes, le modèle utilise une architecture sophistiquée "vérificateur d'abord" qui garantit que les preuves mathématiques sont non seulement exactes, mais aussi logiquement rigoureuses et complètes. Cela représente un changement fondamental dans la façon dont les systèmes d'IA abordent le raisonnement mathématique.
Le modèle introduit un nouveau système à trois composants : un générateur de preuves qui crée des solutions mathématiques, un vérificateur qui évalue la qualité et la validité des preuves, et un méta-vérificateur qui garantit que le processus de vérification lui-même reste véridique et ne crée pas d'erreurs inexistantes. Cette approche en couches corrige une faiblesse critique des systèmes précédents où les modèles pouvaient arriver à des réponses correctes par un raisonnement erroné.
L'équipe de recherche de DeepSeek a entraîné le vérificateur en utilisant l'optimisation de politique relative de groupe (GRPO) sur plus de 17 500 problèmes de style preuve provenant d'olympiades et de concours mathématiques. Le système a ensuite été amélioré avec des capacités de raffinement séquentiel, lui permettant d'améliorer itérativement les preuves sur plusieurs passes dans sa fenêtre de contexte de 128 000 jetons.
Sur l'évaluation IMO-ProofBench développée par Google DeepMind, DeepSeekMath-V2 a démontré des performances supérieures à celles du propre système DeepThink IMO-Gold de DeepMind sur les problèmes de base et est resté compétitif sur les défis avancés. Le modèle a surpassé plusieurs systèmes commerciaux de premier plan, dont Gemini 2.5 Pro, dans plusieurs catégories mathématiques, notamment l'algèbre, la géométrie, la théorie des nombres et la combinatoire.
Peut-être plus important encore pour la communauté de la recherche en IA, DeepSeekMath-V2 a été publié sous la licence permissive Apache 2.0, le rendant librement disponible pour une utilisation académique et commerciale. Le modèle peut fonctionner sur des systèmes avec 80 Go de mémoire GPU en utilisant l'inférence multi-GPU, démocratisant ainsi l'accès aux capacités d'IA mathématique de pointe.
Le paysage concurrentiel révèle une dynamique intéressante. Alors que GPT-5 d'OpenAI conserve une longueur d'avance dans certains benchmarks comme le concours AIME 2025 (94 % contre 76 % pour DeepSeek), le modèle open source de DeepSeek démontre que des capacités de raisonnement mathématique de classe mondiale ne doivent pas nécessairement être enfermées derrière des systèmes propriétaires. De plus, DeepSeekMath-V2 est considérablement plus rentable, avec des prix environ 40 % inférieurs pour les jetons d'entrée et 80 % inférieurs pour les jetons de sortie par rapport à GPT-5.
La publication de DeepSeekMath-V2 représente une étape importante dans la démocratisation de l'IA avancée. En atteignant des performances de médaille d'or lors de compétitions mathématiques d'élite tout en restant open source et rentable, DeepSeek a remis en question l'hypothèse selon laquelle les capacités d'IA de pointe doivent provenir de géants technologiques occidentaux bien financés. Le succès du modèle à l'examen Putnam 2024, où il a dépassé la meilleure performance humaine, suggère que les systèmes d'IA atteignent de nouveaux niveaux de sophistication mathématique.
Pour les chercheurs et les développeurs, la disponibilité du modèle sur Hugging Face avec une documentation complète et le référentiel GitHub DeepSeek-V3.2-Exp signifie qu'une application pratique immédiate est possible. La capacité du système à fournir non seulement des réponses, mais aussi des preuves rigoureuses et vérifiables, ouvre de nouvelles possibilités pour la démonstration automatique de théorèmes, l'enseignement des mathématiques et les applications de recherche scientifique.
Les implications plus larges s'étendent au-delà des mathématiques. L'approche "vérificateur d'abord" de DeepSeek pourrait influencer la façon dont les systèmes d'IA sont développés pour d'autres domaines nécessitant un raisonnement rigoureux, tels que la vérification formelle en génie logiciel, les tests d'hypothèses scientifiques et l'argumentation logique. Le concept de méta-vérification, qui garantit que les critiques de l'IA restent honnêtes et fondées, répond aux préoccupations croissantes concernant la fiabilité de l'IA et les hallucinations dans les applications à enjeux élevés.
Les observateurs de l'industrie notent que la publication de DeepSeekMath-V2 intensifie la concurrence dans le secteur de l'IA, en particulier alors que les entreprises chinoises d'IA continuent de produire des modèles qui rivalisent ou dépassent leurs homologues occidentaux. L'architecture de mélange d'experts du modèle, qui n'active que 21 milliards de ses 685 milliards de paramètres pendant l'inférence, démontre une ingénierie sophistiquée qui équilibre la capacité et l'efficacité computationnelle.
Alors que le domaine de l'IA poursuit son évolution rapide, DeepSeekMath-V2 témoigne que le développement open source peut atteindre des niveaux de performance que l'on pensait auparavant nécessiter des ressources d'entreprise massives. Le succès du modèle pourrait accélérer la tendance vers le développement d'IA ouverte tout en soulevant des questions sur la durabilité des modèles commerciaux à source fermée dans un paysage de plus en plus concurrentiel.
Pour la communauté de la recherche en IA mathématique, cette publication fournit un nouvel outil puissant pour explorer les systèmes de raisonnement auto-vérifiables. La capacité de faire évoluer le calcul au moment du test tout en maintenant la qualité de la preuve suggère des voies vers des systèmes plus performants capables de s'attaquer à des problèmes mathématiques ouverts sans solutions connues. La question de savoir si cette approche s'étendra avec succès à d'autres domaines de raisonnement reste une question ouverte et fascinante pour les recherches futures.