DeepSeek Math-V2, 거의 완벽한 Putnam 점수와 금메달 IMO 성적으로 새로운 표준 설정

November 30, 2025
DeepSeek
4 min

뉴스 요약

중국 AI 스타트업 DeepSeek가 많은 상용 시스템을 능가하는 성능을 달성한 획기적인 오픈 소스 수학 추론 모델인 DeepSeekMath-V2를 출시했습니다. DeepSeek-V3.2-Exp-Base 아키텍처를 기반으로 구축된 6850억 개의 매개변수 모델은 권위 있는 Putnam 2024 수학 경시대회에서 120점 만점에 118점을 획득하여 인간 최고 점수인 90점을 넘어섰습니다. 이 모델은 또한 국제 수학 올림피아드(IMO) 2025와 중국 수학 올림피아드(CMO) 2024에서 금메달 수준의 성과를 달성했습니다.

DeepSeekMath-V2가 기존의 수학 AI 시스템과 차별화되는 점은 검증에 대한 혁신적인 접근 방식입니다. 단순히 정답을 최적화하는 대신, 이 모델은 수학적 증명이 정확할 뿐만 아니라 논리적으로 엄격하고 완전하도록 보장하는 정교한 "검증자 우선" 아키텍처를 사용합니다. 이는 AI 시스템이 수학적 추론에 접근하는 방식의 근본적인 변화를 나타냅니다.

이 모델은 수학적 해법을 생성하는 증명 생성기, 증명의 품질과 건전성을 평가하는 검증자, 검증 프로세스 자체가 진실성을 유지하고 존재하지 않는 오류를 환각하지 않도록 보장하는 메타 검증자의 세 가지 구성 요소 시스템을 도입합니다. 이 계층화된 접근 방식은 모델이 결함 있는 추론을 통해 정답에 도달할 수 있는 이전 시스템의 중요한 약점을 해결합니다.

DeepSeek 연구팀은 수학 올림피아드 및 경시대회의 17,500개 이상의 증명 스타일 문제에서 GRPO(Group Relative Policy Optimization)를 사용하여 검증자를 훈련했습니다. 그런 다음 이 시스템은 순차적 개선 기능을 통해 향상되어 128,000 토큰 컨텍스트 창 내에서 여러 번의 패스를 통해 증명을 반복적으로 개선할 수 있습니다.

Google DeepMind에서 개발한 IMO-ProofBench 평가에서 DeepSeekMath-V2는 기본 문제에서 DeepMind 자체의 DeepThink IMO-Gold 시스템보다 우수한 성능을 보였고 고급 문제에서는 경쟁력을 유지했습니다. 이 모델은 대수학, 기하학, 정수론 및 조합론을 포함한 여러 수학 범주에서 Gemini 2.5 Pro를 포함한 여러 주요 상용 시스템보다 뛰어난 성능을 보였습니다.

아마도 AI 연구 커뮤니티에서 가장 중요한 점은 DeepSeekMath-V2가 허용적인 Apache 2.0 라이선스 하에 출시되어 학술 및 상업적 용도로 자유롭게 사용할 수 있다는 것입니다. 이 모델은 다중 GPU 추론을 사용하여 80GB의 GPU 메모리를 가진 시스템에서 실행할 수 있어 최첨단 수학 AI 기능에 대한 접근성을 높입니다.

경쟁 환경은 흥미로운 역학 관계를 보여줍니다. OpenAI의 GPT-5는 AIME 2025 대회(DeepSeek의 76% 대 94%)와 같은 특정 벤치마크에서 우위를 유지하지만 DeepSeek의 오픈 소스 모델은 세계적 수준의 수학적 추론 기능이 독점 시스템에 갇혀 있을 필요가 없음을 보여줍니다. 또한 DeepSeekMath-V2는 GPT-5에 비해 입력 토큰 가격이 약 40% 저렴하고 출력 토큰 가격이 80% 저렴하여 훨씬 비용 효율적입니다.

DeepSeekMath-V2의 출시는 고급 AI의 민주화에 있어 중요한 이정표입니다. 엘리트 수학 경시대회에서 금메달 성과를 달성하면서 오픈 소스 및 비용 효율성을 유지함으로써 DeepSeek는 최첨단 AI 기능이 자금 지원이 잘 된 서구 기술 대기업에서 나와야 한다는 가정을 깨뜨렸습니다. Putnam 2024 시험에서 최고의 인간 성과를 능가한 이 모델의 성공은 AI 시스템이 새로운 수준의 수학적 정교함에 도달하고 있음을 시사합니다.

연구원과 개발자에게는 포괄적인 문서와 DeepSeek-V3.2-Exp GitHub 저장소를 통해 Hugging Face에서 모델을 사용할 수 있다는 것은 즉각적인 실제 적용이 가능하다는 것을 의미합니다. 답변뿐만 아니라 엄격하고 검증 가능한 증명을 제공하는 시스템의 능력은 자동화된 정리 증명, 수학 교육 및 과학 연구 응용 분야에 대한 새로운 가능성을 열어줍니다.

더 넓은 의미는 수학을 넘어 확장됩니다. DeepSeek의 검증자 우선 접근 방식은 소프트웨어 엔지니어링의 공식 검증, 과학적 가설 테스트 및 논리적 논증과 같이 엄격한 추론이 필요한 다른 영역에서 AI 시스템이 개발되는 방식에 영향을 미칠 수 있습니다. AI 비평이 정직하고 근거가 있는지 확인하는 메타 검증 개념은 위험도가 높은 응용 분야에서 AI 신뢰성과 환각에 대한 우려가 커지는 문제를 해결합니다.

업계 관측통들은 DeepSeekMath-V2의 출시가 AI 부문, 특히 중국 AI 기업들이 서구 기업에 필적하거나 능가하는 모델을 계속 생산함에 따라 경쟁을 심화시키고 있다고 지적합니다. 추론 중에 6850억 개의 매개변수 중 210억 개만 활성화하는 모델의 혼합 전문가 아키텍처는 기능과 계산 효율성의 균형을 맞추는 정교한 엔지니어링을 보여줍니다.

AI 분야가 계속 빠르게 진화함에 따라 DeepSeekMath-V2는 오픈 소스 개발이 이전에는 막대한 기업 자원이 필요하다고 생각되었던 성능 수준을 달성할 수 있다는 증거로 작용합니다. 이 모델의 성공은 개방형 AI 개발 추세를 가속화하는 동시에 경쟁이 치열해지는 환경에서 폐쇄형 소스 비즈니스 모델의 지속 가능성에 대한 의문을 제기할 수 있습니다.

수학 AI 연구 커뮤니티에게 이 릴리스는 자체 검증 가능한 추론 시스템을 탐색하기 위한 강력한 새로운 도구를 제공합니다. 증명 품질을 유지하면서 테스트 시간 계산을 확장하는 기능은 알려진 해법이 없는 열린 수학 문제를 해결할 수 있는 보다 유능한 시스템으로 향하는 경로를 제시합니다. 이 접근 방식이 다른 추론 영역으로 성공적으로 확장될지는 미래 연구를 위한 열린 흥미로운 질문으로 남아 있습니다.