Anthropic apresenta Claude Sonnet 4.5: Programação autônoma por 30 horas, redefine os limites da capacidade de código de IA
Resumo
A Anthropic lançou o Claude Sonnet 4.5 em 29 de setembro de 2025, o que representa o modelo de IA de programação mais poderoso da empresa até o momento. O modelo obteve uma pontuação de 77,2% no benchmark SWE-bench Verified, superando os seus homólogos da OpenAI e da Google em tarefas reais de engenharia de software. O Claude Sonnet 4.5 pode trabalhar autonomamente por mais de 30 horas, mantendo o foco em tarefas complexas de várias etapas, enquanto o modelo Opus 4, lançado em maio, só conseguia operar por 7 horas.
Avanços no Desempenho Técnico
No benchmark OSWorld, o Claude Sonnet 4.5 alcançou uma pontuação de 61,4%, um aumento significativo em comparação com os 42,2% do Claude Sonnet 4 de quatro meses antes. O teste OSWorld avalia o desempenho de modelos de IA em tarefas reais de computador, incluindo navegação em websites, preenchimento de folhas de cálculo e conclusão de tarefas de desktop.
David Hershey, pesquisador da Anthropic, afirmou que em testes iniciais com clientes empresariais, observou que o Claude Sonnet 4.5 era capaz de programar autonomamente por até 30 horas, período durante o qual não só construía aplicações, mas também configurava serviços de base de dados, comprava domínios e realizava auditorias de segurança SOC 2.
O modelo destaca-se no planeamento de código e design de sistemas, sendo capaz de tomar melhores decisões arquitetónicas e organizar o código de forma mais eficiente. Também apresenta melhorias na engenharia de segurança, oferecendo práticas de segurança mais robustas e capacidades de deteção de vulnerabilidades.
Preços e Disponibilidade
O preço da API do Claude Sonnet 4.5 permanece inalterado, a 3 dólares por milhão de tokens de entrada e 15 dólares por milhão de tokens de saída, o mesmo preço do seu antecessor, o Claude Sonnet 4. Esta estratégia de preços continua a ser mais elevada em comparação com o concorrente GPT-5 (1,25 dólares por milhão de tokens de entrada e 10 dólares por milhão de tokens de saída), mas a Anthropic procura justificar o seu preço premium através da vantagem de desempenho.
O modelo já está disponível na interface web Claude.ai, nas aplicações iOS e Android, na API Claude, no Amazon Bedrock e no Vertex AI da Google Cloud. Os desenvolvedores podem invocá-lo através da string do modelo claude-sonnet-4-5. O GitHub Copilot também integrou o Claude Sonnet 4.5, estando acessível para utilizadores Copilot Pro, Pro+, Business e Enterprise.
Atualizações do Ecossistema de Produtos
A Anthropic lançou simultaneamente várias atualizações de produtos, incluindo a tão esperada funcionalidade de pontos de verificação (checkpoint) no Claude Code, que permite aos utilizadores guardar o progresso e reverter para estados anteriores a qualquer momento; uma nova interface de terminal; e uma extensão nativa para VS Code.
A aplicação Claude agora suporta a execução direta de código e a criação de ficheiros em conversas, incluindo folhas de cálculo, apresentações e documentos. A Anthropic também lançou o Claude Agent SDK, que utiliza a mesma infraestrutura do Claude Code, permitindo que os desenvolvedores construam os seus próprios agentes de IA.
A empresa também lançou um projeto de pré-visualização de pesquisa de 5 dias para subscritores Max, "Imagine with Claude", que demonstra a capacidade do modelo de IA para gerar software em tempo real, sem a necessidade de funcionalidades predefinidas ou código pré-escrito.
Repercussão na Indústria e Aplicações Empresariais
Michael Truell, CEO da Cursor, afirmou que o Claude Sonnet 4.5 se destaca em tarefas de longo prazo, razão pela qual muitos desenvolvedores que usam o Cursor escolhem o Claude para resolver problemas complexos. A avaliação preliminar da equipa do GitHub Copilot revelou melhorias significativas no raciocínio multi-etapas e na compreensão de código, permitindo que a experiência do agente do Copilot lide melhor com tarefas complexas em bases de código.
No que diz respeito às aplicações empresariais, a organização de segurança HackerOne relatou que, após a utilização do Claude Sonnet 4.5, o tempo de resposta a vulnerabilidades diminuiu 44%. Instituições financeiras como a Norges Bank Investment Management também estão a usar o modelo para análise financeira de nível de investimento, enquanto os desenvolvedores da Netflix e do GitHub o utilizam para lidar com tarefas complexas em bases de código.
Melhorias de Segurança
O Claude Sonnet 4.5 foi lançado com medidas de proteção AI Safety Level 3 (ASL-3), que incluem classificadores projetados para detetar entradas e saídas potencialmente perigosas, especialmente conteúdo relacionado com armas químicas, biológicas, radiológicas e nucleares. Mike Krieger, Chief Product Officer da Anthropic, descreveu-o como "a maior melhoria de segurança no último ano a um ano e meio".
A Anthropic afirmou que este é o modelo de ponta mais alinhado que a empresa lançou, tendo feito progressos substanciais na redução de comportamentos preocupantes como a adulação, a deceção, a busca de poder e o encorajamento do pensamento delirante. A resistência do modelo a ataques de injeção de prompt também foi aprimorada.
Cenário Competitivo do Mercado
O lançamento do Claude Sonnet 4.5 ocorre menos de dois meses após o modelo anterior da Anthropic, o Claude Opus 4.1, o que reflete a rápida e inovadora competição na indústria de IA. O modelo foi lançado dias antes da conferência anual de desenvolvedores da OpenAI, e a Microsoft tinha acabado de adicionar os modelos Claude ao Copilot 365 na semana anterior.
No último ano, os modelos de IA da Anthropic tornaram-se a escolha preferida de desenvolvedores e empresas devido ao seu forte desempenho em tarefas de engenharia de software. Relatos indicam que a Apple e a Meta utilizam modelos de IA Claude internamente, e a Anthropic obteve receitas comerciais consideráveis ao vender acesso à API a aplicações de programação de IA como Cursor, Windsurf e Replit.
A Anthropic afirmou que o Claude Code gera agora mais de 500 milhões de dólares em receita operacional, com um crescimento de utilização superior a 10 vezes nos últimos três meses.
Perspectivas Futuras
Jared Kaplan, cientista-chefe da Anthropic, revelou que a empresa planeia mais um ou dois lançamentos de modelos até o final do ano, que "muito provavelmente incluirão" uma nova versão do Opus. Krieger afirmou que o Claude Sonnet 4.5 se tornará a escolha padrão dos utilizadores, e a Anthropic recomenda este modelo para "praticamente todos os casos de uso".
No entanto, observadores da indústria notam que este campo está a desenvolver-se tão rapidamente que, com a iminente chegada do Gemini 3, não é certo por quanto tempo o Claude Sonnet 4.5 conseguirá manter o título de "melhor modelo de programação".