DeepSeek Math-V2 Define Novo Padrão com Pontuação Quase Perfeita no Putnam e Desempenho de Medalha de Ouro na IMO
Resumo de Notícias
A startup chinesa de IA DeepSeek lançou o DeepSeekMath-V2, um modelo de raciocínio matemático de código aberto inovador que alcançou níveis de desempenho superiores a muitos sistemas comerciais. O modelo de 685 bilhões de parâmetros, construído sobre a arquitetura DeepSeek-V3.2-Exp-Base, alcançou notáveis 118 de 120 pontos na prestigiosa competição matemática Putnam 2024, excedendo a melhor pontuação humana de 90 pontos. O modelo também alcançou desempenho de nível de medalha de ouro tanto na Olimpíada Internacional de Matemática (IMO) 2025 quanto na Olimpíada Chinesa de Matemática (CMO) 2024.
O que diferencia o DeepSeekMath-V2 dos sistemas de IA matemática anteriores é sua abordagem inovadora à verificação. Em vez de simplesmente otimizar para respostas finais corretas, o modelo emprega uma arquitetura sofisticada "verificador-primeiro" que garante que as provas matemáticas não sejam apenas precisas, mas também logicamente rigorosas e completas. Isso representa uma mudança fundamental na forma como os sistemas de IA abordam o raciocínio matemático.
O modelo introduz um novo sistema de três componentes: um gerador de provas que cria soluções matemáticas, um verificador que avalia a qualidade e a solidez das provas e um meta-verificador que garante que o processo de verificação em si permaneça verdadeiro e não alucine erros inexistentes. Essa abordagem em camadas aborda uma fraqueza crítica em sistemas anteriores, onde os modelos podiam chegar a respostas corretas por meio de raciocínio falho.
A equipe de pesquisa da DeepSeek treinou o verificador usando a Otimização de Política Relativa de Grupo (GRPO) em mais de 17.500 problemas de estilo de prova de olimpíadas e competições matemáticas. O sistema foi então aprimorado com recursos de refinamento sequencial, permitindo que ele melhorasse iterativamente as provas em várias passagens dentro de sua janela de contexto de 128.000 tokens.
Na avaliação IMO-ProofBench desenvolvida pelo Google DeepMind, o DeepSeekMath-V2 demonstrou desempenho superior em comparação com o próprio sistema DeepThink IMO-Gold do DeepMind em problemas básicos e permaneceu competitivo em desafios avançados. O modelo superou vários sistemas comerciais líderes, incluindo o Gemini 2.5 Pro, em várias categorias matemáticas, incluindo álgebra, geometria, teoria dos números e combinatória.
Talvez o mais significativo para a comunidade de pesquisa em IA, o DeepSeekMath-V2 foi lançado sob a licença permissiva Apache 2.0, tornando-o disponível gratuitamente para uso acadêmico e comercial. O modelo pode ser executado em sistemas com 80 GB de memória GPU usando inferência multi-GPU, democratizando o acesso a recursos de IA matemática de ponta.
O cenário competitivo revela dinâmicas interessantes. Embora o GPT-5 da OpenAI mantenha uma vantagem em certos benchmarks, como a competição AIME 2025 (94% versus 76% do DeepSeek), o modelo de código aberto da DeepSeek demonstra que os recursos de raciocínio matemático de classe mundial não precisam ser trancados atrás de sistemas proprietários. Além disso, o DeepSeekMath-V2 é substancialmente mais econômico, com preços aproximadamente 40% menores para tokens de entrada e 80% menores para tokens de saída em comparação com o GPT-5.
O lançamento do DeepSeekMath-V2 representa um marco significativo na democratização da IA avançada. Ao alcançar desempenho de medalha de ouro em competições matemáticas de elite, permanecendo de código aberto e econômico, a DeepSeek desafiou a suposição de que os recursos de IA de ponta devem vir de gigantes da tecnologia ocidental bem financiadas. O sucesso do modelo no exame Putnam 2024, onde excedeu o melhor desempenho humano, sugere que os sistemas de IA estão atingindo novos níveis de sofisticação matemática.
Para pesquisadores e desenvolvedores, a disponibilidade do modelo no Hugging Face com documentação abrangente e o repositório DeepSeek-V3.2-Exp GitHub significa que a aplicação prática imediata é possível. A capacidade do sistema de fornecer não apenas respostas, mas provas rigorosas e verificáveis, abre novas possibilidades para prova de teoremas automatizada, educação matemática e aplicações de pesquisa científica.
As implicações mais amplas se estendem além da matemática. A abordagem verificador-primeiro da DeepSeek pode influenciar como os sistemas de IA são desenvolvidos para outros domínios que exigem raciocínio rigoroso, como verificação formal em engenharia de software, teste de hipóteses científicas e argumentação lógica. O conceito de meta-verificação, que garante que as críticas da IA permaneçam honestas e fundamentadas, aborda as crescentes preocupações sobre a confiabilidade da IA e a alucinação em aplicações de alto risco.
Observadores da indústria notam que o lançamento do DeepSeekMath-V2 intensifica a competição no setor de IA, particularmente à medida que as empresas chinesas de IA continuam a produzir modelos que rivalizam ou excedem os equivalentes ocidentais. A arquitetura de mistura de especialistas do modelo, que ativa apenas 21 bilhões de seus 685 bilhões de parâmetros durante a inferência, demonstra engenharia sofisticada que equilibra capacidade com eficiência computacional.
À medida que o campo da IA continua sua rápida evolução, o DeepSeekMath-V2 se destaca como evidência de que o desenvolvimento de código aberto pode atingir níveis de desempenho que antes se pensava exigirem recursos corporativos massivos. O sucesso do modelo pode acelerar a tendência em direção ao desenvolvimento de IA aberta, ao mesmo tempo em que levanta questões sobre a sustentabilidade de modelos de negócios de código fechado em um cenário cada vez mais competitivo.
Para a comunidade de pesquisa em IA matemática, este lançamento fornece uma nova ferramenta poderosa para explorar sistemas de raciocínio auto-verificáveis. A capacidade de escalar a computação em tempo de teste, mantendo a qualidade da prova, sugere caminhos para sistemas mais capazes que podem enfrentar problemas matemáticos abertos sem soluções conhecidas. Se essa abordagem se estenderá com sucesso a outros domínios de raciocínio, permanece uma questão aberta e fascinante para pesquisas futuras.