DeepSeek Math-V2 Establece un Nuevo Estándar con una Puntuación Casi Perfecta en Putnam y un Rendimiento de Medalla de Oro en la IMO
Resumen de Noticias
La startup china de IA DeepSeek ha lanzado DeepSeekMath-V2, un innovador modelo de razonamiento matemático de código abierto que ha alcanzado niveles de rendimiento que superan a muchos sistemas comerciales. El modelo de 685 mil millones de parámetros, construido sobre la arquitectura DeepSeek-V3.2-Exp-Base, logró una notable puntuación de 118 sobre 120 puntos en la prestigiosa competición matemática Putnam 2024, superando la mejor puntuación humana de 90 puntos. El modelo también alcanzó un rendimiento de nivel de medalla de oro tanto en la Olimpiada Matemática Internacional (IMO) 2025 como en la Olimpiada Matemática China (CMO) 2024.
Lo que distingue a DeepSeekMath-V2 de los sistemas de IA matemática anteriores es su enfoque innovador de la verificación. En lugar de simplemente optimizar para obtener respuestas finales correctas, el modelo emplea una sofisticada arquitectura "primero el verificador" que garantiza que las pruebas matemáticas no solo sean precisas, sino también lógicamente rigurosas y completas. Esto representa un cambio fundamental en la forma en que los sistemas de IA abordan el razonamiento matemático.
El modelo introduce un novedoso sistema de tres componentes: un generador de pruebas que crea soluciones matemáticas, un verificador que evalúa la calidad y solidez de las pruebas y un meta-verificador que garantiza que el proceso de verificación en sí mismo siga siendo veraz y no alucine errores inexistentes. Este enfoque en capas aborda una debilidad crítica en los sistemas anteriores, donde los modelos podían llegar a respuestas correctas a través de un razonamiento defectuoso.
El equipo de investigación de DeepSeek entrenó al verificador utilizando la Optimización de Políticas Relativas de Grupo (GRPO) en más de 17,500 problemas de estilo de prueba de olimpiadas y competiciones matemáticas. El sistema se mejoró luego con capacidades de refinamiento secuencial, lo que le permitió mejorar iterativamente las pruebas a través de múltiples pases dentro de su ventana de contexto de 128,000 tokens.
En la evaluación IMO-ProofBench desarrollada por Google DeepMind, DeepSeekMath-V2 demostró un rendimiento superior en comparación con el propio sistema DeepThink IMO-Gold de DeepMind en problemas básicos y se mantuvo competitivo en desafíos avanzados. El modelo superó a varios sistemas comerciales líderes, incluido Gemini 2.5 Pro, en múltiples categorías matemáticas, incluyendo álgebra, geometría, teoría de números y combinatoria.
Quizás lo más significativo para la comunidad de investigación de IA es que DeepSeekMath-V2 se ha lanzado bajo la permisiva licencia Apache 2.0, lo que lo hace disponible gratuitamente tanto para uso académico como comercial. El modelo puede ejecutarse en sistemas con 80 GB de memoria GPU utilizando inferencia multi-GPU, democratizando el acceso a capacidades de IA matemática de vanguardia.
El panorama competitivo revela dinámicas interesantes. Si bien GPT-5 de OpenAI mantiene una ventaja en ciertos puntos de referencia como la competición AIME 2025 (94% frente al 76% de DeepSeek), el modelo de código abierto de DeepSeek demuestra que las capacidades de razonamiento matemático de clase mundial no tienen por qué estar bloqueadas detrás de sistemas propietarios. Además, DeepSeekMath-V2 es sustancialmente más rentable, con precios aproximadamente un 40% más bajos para los tokens de entrada y un 80% más bajos para los tokens de salida en comparación con GPT-5.
El lanzamiento de DeepSeekMath-V2 representa un hito significativo en la democratización de la IA avanzada. Al lograr un rendimiento de medalla de oro en competiciones matemáticas de élite, mientras que sigue siendo de código abierto y rentable, DeepSeek ha desafiado la suposición de que las capacidades de IA de vanguardia deben provenir de gigantes tecnológicos occidentales bien financiados. El éxito del modelo en el examen Putnam 2024, donde superó el mejor rendimiento humano, sugiere que los sistemas de IA están alcanzando nuevos niveles de sofisticación matemática.
Para investigadores y desarrolladores, la disponibilidad del modelo en Hugging Face con documentación completa y el repositorio DeepSeek-V3.2-Exp en GitHub significa que es posible una aplicación práctica inmediata. La capacidad del sistema para proporcionar no solo respuestas, sino pruebas rigurosas y verificables, abre nuevas posibilidades para la demostración automatizada de teoremas, la educación matemática y las aplicaciones de investigación científica.
Las implicaciones más amplias se extienden más allá de las matemáticas. El enfoque "primero el verificador" de DeepSeek podría influir en cómo se desarrollan los sistemas de IA para otros dominios que requieren un razonamiento riguroso, como la verificación formal en la ingeniería de software, las pruebas de hipótesis científicas y la argumentación lógica. El concepto de meta-verificación, que garantiza que las críticas de la IA sigan siendo honestas y fundamentadas, aborda las crecientes preocupaciones sobre la fiabilidad de la IA y la alucinación en aplicaciones de alto riesgo.
Los observadores de la industria señalan que el lanzamiento de DeepSeekMath-V2 intensifica la competencia en el sector de la IA, particularmente a medida que las empresas chinas de IA continúan produciendo modelos que rivalizan o superan a sus homólogos occidentales. La arquitectura de mezcla de expertos del modelo, que activa solo 21 mil millones de sus 685 mil millones de parámetros durante la inferencia, demuestra una ingeniería sofisticada que equilibra la capacidad con la eficiencia computacional.
A medida que el campo de la IA continúa su rápida evolución, DeepSeekMath-V2 se erige como evidencia de que el desarrollo de código abierto puede alcanzar niveles de rendimiento que antes se pensaba que requerían enormes recursos corporativos. El éxito del modelo puede acelerar la tendencia hacia el desarrollo de IA abierta, al tiempo que plantea preguntas sobre la sostenibilidad de los modelos de negocio de código cerrado en un panorama cada vez más competitivo.
Para la comunidad de investigación de IA matemática, este lanzamiento proporciona una nueva y poderosa herramienta para explorar sistemas de razonamiento auto-verificables. La capacidad de escalar el cómputo en tiempo de prueba manteniendo la calidad de la prueba sugiere vías hacia sistemas más capaces que puedan abordar problemas matemáticos abiertos sin soluciones conocidas. Si este enfoque se extenderá con éxito a otros dominios de razonamiento sigue siendo una pregunta abierta y fascinante para futuras investigaciones.