DeepSeek Math-V2 setzt neuen Standard mit nahezu perfektem Putnam-Ergebnis und Goldmedaillen-Leistung bei der IMO
Nachrichtenzusammenfassung
Das chinesische KI-Startup DeepSeek hat DeepSeekMath-V2 veröffentlicht, ein bahnbrechendes Open-Source-Modell für mathematisches Denken, das Leistungsniveaus erreicht hat, die viele kommerzielle Systeme übertreffen. Das Modell mit 685 Milliarden Parametern, das auf der DeepSeek-V3.2-Exp-Base-Architektur basiert, erreichte bemerkenswerte 118 von 120 Punkten beim renommierten Putnam 2024 Mathematikwettbewerb und übertraf damit die beste menschliche Punktzahl von 90 Punkten. Das Modell erreichte auch Goldmedaillen-Niveau bei der Internationalen Mathematik-Olympiade (IMO) 2025 und der Chinesischen Mathematik-Olympiade (CMO) 2024.
Was DeepSeekMath-V2 von früheren mathematischen KI-Systemen unterscheidet, ist sein innovativer Ansatz zur Verifizierung. Anstatt einfach nur auf korrekte Endergebnisse zu optimieren, verwendet das Modell eine ausgeklügelte "Verifier-First"-Architektur, die sicherstellt, dass mathematische Beweise nicht nur korrekt, sondern auch logisch stichhaltig und vollständig sind. Dies stellt einen grundlegenden Wandel in der Art und Weise dar, wie KI-Systeme an mathematisches Denken herangehen.
Das Modell führt ein neuartiges Drei-Komponenten-System ein: einen Beweisgenerator, der mathematische Lösungen erstellt, einen Verifizierer, der die Qualität und Stichhaltigkeit von Beweisen bewertet, und einen Meta-Verifizierer, der sicherstellt, dass der Verifizierungsprozess selbst wahrheitsgemäß bleibt und keine nicht existierenden Fehler halluziniert. Dieser mehrschichtige Ansatz behebt eine kritische Schwäche in früheren Systemen, bei denen Modelle durch fehlerhafte Argumentation zu korrekten Antworten gelangen konnten.
Das Forschungsteam von DeepSeek trainierte den Verifizierer mit Group Relative Policy Optimization (GRPO) an über 17.500 Beweis-artigen Problemen aus mathematischen Olympiaden und Wettbewerben. Das System wurde dann mit sequentiellen Verfeinerungsfunktionen erweitert, die es ihm ermöglichen, Beweise iterativ über mehrere Durchgänge innerhalb seines 128.000-Token-Kontextfensters zu verbessern.
Bei der von Google DeepMind entwickelten IMO-ProofBench-Evaluierung zeigte DeepSeekMath-V2 eine überlegene Leistung im Vergleich zu DeepMinds eigenem DeepThink IMO-Gold-System bei grundlegenden Problemen und blieb bei fortgeschrittenen Herausforderungen wettbewerbsfähig. Das Modell übertraf mehrere führende kommerzielle Systeme, darunter Gemini 2.5 Pro, in verschiedenen mathematischen Kategorien wie Algebra, Geometrie, Zahlentheorie und Kombinatorik.
Am bedeutendsten für die KI-Forschungsgemeinschaft ist vielleicht, dass DeepSeekMath-V2 unter der freizügigen Apache 2.0-Lizenz veröffentlicht wurde, wodurch es sowohl für akademische als auch für kommerzielle Zwecke frei verfügbar ist. Das Modell kann auf Systemen mit 80 GB GPU-Speicher unter Verwendung von Multi-GPU-Inferenz ausgeführt werden, wodurch der Zugang zu modernsten mathematischen KI-Funktionen demokratisiert wird.
Die Wettbewerbslandschaft offenbart interessante Dynamiken. Während OpenAIs GPT-5 in bestimmten Benchmarks wie dem AIME 2025-Wettbewerb (94 % gegenüber DeepSeeks 76 %) einen Vorteil behält, zeigt DeepSeeks Open-Source-Modell, dass erstklassige mathematische Denkfähigkeiten nicht hinter proprietären Systemen verschlossen sein müssen. Darüber hinaus ist DeepSeekMath-V2 wesentlich kostengünstiger, mit Preisen, die für Eingabe-Token etwa 40 % und für Ausgabe-Token etwa 80 % niedriger sind als bei GPT-5.
Die Veröffentlichung von DeepSeekMath-V2 stellt einen bedeutenden Meilenstein in der Demokratisierung fortschrittlicher KI dar. Durch das Erreichen von Goldmedaillen-Leistungen bei Elite-Mathematikwettbewerben bei gleichzeitiger Open-Source- und Kosteneffizienz hat DeepSeek die Annahme in Frage gestellt, dass modernste KI-Fähigkeiten von finanzstarken westlichen Technologiegiganten stammen müssen. Der Erfolg des Modells bei der Putnam 2024-Prüfung, bei der es die beste menschliche Leistung übertraf, deutet darauf hin, dass KI-Systeme neue Ebenen mathematischer Raffinesse erreichen.
Für Forscher und Entwickler bedeutet die Verfügbarkeit des Modells auf Hugging Face mit umfassender Dokumentation und dem DeepSeek-V3.2-Exp GitHub-Repository, dass eine sofortige praktische Anwendung möglich ist. Die Fähigkeit des Systems, nicht nur Antworten, sondern auch rigorose, überprüfbare Beweise zu liefern, eröffnet neue Möglichkeiten für automatisches Theorembeweisen, mathematische Ausbildung und wissenschaftliche Forschungsanwendungen.
Die umfassenderen Auswirkungen gehen über die Mathematik hinaus. Der Verifier-First-Ansatz von DeepSeek könnte beeinflussen, wie KI-Systeme für andere Bereiche entwickelt werden, die rigoroses Denken erfordern, wie z. B. formale Verifizierung in der Softwareentwicklung, wissenschaftliche Hypothesentests und logische Argumentation. Das Meta-Verifikationskonzept, das sicherstellt, dass KI-Kritiken ehrlich und fundiert bleiben, geht auf wachsende Bedenken hinsichtlich der KI-Zuverlässigkeit und -Halluzination in risikoreichen Anwendungen ein.
Branchenbeobachter stellen fest, dass die Veröffentlichung von DeepSeekMath-V2 den Wettbewerb im KI-Sektor verstärkt, insbesondere da chinesische KI-Firmen weiterhin Modelle produzieren, die westliche Pendants erreichen oder übertreffen. Die Mixture-of-Experts-Architektur des Modells, die während der Inferenz nur 21 Milliarden seiner 685 Milliarden Parameter aktiviert, demonstriert eine ausgeklügelte Technik, die Fähigkeit mit Recheneffizienz in Einklang bringt.
Während sich das KI-Feld rasant weiterentwickelt, ist DeepSeekMath-V2 ein Beweis dafür, dass Open-Source-Entwicklung Leistungsniveaus erreichen kann, von denen man bisher annahm, dass sie massive Unternehmensressourcen erfordern. Der Erfolg des Modells könnte den Trend zur offenen KI-Entwicklung beschleunigen und gleichzeitig Fragen zur Nachhaltigkeit von Closed-Source-Geschäftsmodellen in einem zunehmend wettbewerbsorientierten Umfeld aufwerfen.
Für die mathematische KI-Forschungsgemeinschaft bietet diese Veröffentlichung ein leistungsstarkes neues Werkzeug zur Erforschung selbstverifizierender Denksysteme. Die Fähigkeit, die Testzeitberechnung zu skalieren und gleichzeitig die Beweisqualität aufrechtzuerhalten, deutet auf Wege zu leistungsfähigeren Systemen hin, die offene mathematische Probleme ohne bekannte Lösungen angehen können. Ob sich dieser Ansatz erfolgreich auf andere Denkbereiche ausweiten lässt, bleibt eine offene und faszinierende Frage für die zukünftige Forschung.