Anthropic présente Claude Sonnet 4.5 : programmation autonome pendant 30 heures, repoussant les limites des capacités de code de l'IA

October 04, 2025
AnthropicC
6 min

Résumé

Anthropic a lancé Claude Sonnet 4.5 le 29 septembre 2025, son modèle d'IA de programmation le plus puissant à ce jour. Le modèle a obtenu un score de 77,2 % au test de référence SWE-bench Verified, surpassant les offres comparables d'OpenAI et de Google dans les tâches d'ingénierie logicielle réelles. Claude Sonnet 4.5 peut travailler de manière autonome pendant plus de 30 heures, restant concentré sur des tâches complexes en plusieurs étapes, alors que le modèle Opus 4, lancé en mai, ne pouvait fonctionner que pendant 7 heures.

Avancées en performance technique

Au test de référence OSWorld, Claude Sonnet 4.5 a atteint un score de 61,4 %, une amélioration significative par rapport aux 42,2 % de Claude Sonnet 4 quatre mois plus tôt. Le test OSWorld évalue la performance des modèles d'IA dans des tâches informatiques réelles, y compris la navigation sur des sites web, le remplissage de feuilles de calcul et l'exécution de tâches de bureau.

David Hershey, chercheur chez Anthropic, a déclaré avoir observé lors des premiers essais avec des clients d'entreprise que Claude Sonnet 4.5 était capable de programmer de manière autonome pendant 30 heures, non seulement en construisant des applications, mais aussi en configurant des services de base de données, en achetant des noms de domaine et en effectuant des audits de sécurité SOC 2.

Le modèle excelle dans la planification de code et la conception de systèmes, prenant de meilleures décisions architecturales et organisant mieux le code. Il présente également des améliorations en ingénierie de sécurité, offrant des pratiques de sécurité plus robustes et des capacités de détection de vulnérabilités.

Tarification et disponibilité

La tarification de l'API de Claude Sonnet 4.5 reste inchangée, à 3 $ par million de tokens d'entrée et 15 $ par million de tokens de sortie, soit le même prix que son prédécesseur Claude Sonnet 4. Cette stratégie de prix reste plus élevée que celle de son concurrent GPT-5 (1,25 $ par million de tokens d'entrée, 10 $ par million de tokens de sortie), mais Anthropic cherche à justifier ce prix premium par ses avantages en termes de performance.

Le modèle est désormais disponible sur l'interface web Claude.ai, les applications iOS et Android, l'API Claude, Amazon Bedrock et Vertex AI de Google Cloud. Les développeurs peuvent l'appeler via la chaîne de modèle claude-sonnet-4-5. GitHub Copilot a également intégré Claude Sonnet 4.5, le rendant accessible aux utilisateurs de Copilot Pro, Pro+, Business et Enterprise.

Mises à jour de l'écosystème produit

Anthropic a simultanément publié plusieurs mises à jour de produits, y compris la très attendue fonction de points de contrôle dans Claude Code, permettant aux utilisateurs de sauvegarder leur progression et de revenir à des états antérieurs à tout moment ; une nouvelle interface de terminal ; et une extension VS Code native.

L'application Claude prend désormais en charge l'exécution directe de code et la création de fichiers dans la conversation, y compris des feuilles de calcul, des présentations et des documents. Anthropic a également lancé le SDK Claude Agent, utilisant la même infrastructure que Claude Code, permettant aux développeurs de créer leurs propres agents d'IA.

La société a également lancé un projet de prévisualisation de recherche de 5 jours, "Imagine with Claude", pour les abonnés Max, démontrant la capacité du modèle d'IA à générer des logiciels en temps réel, sans fonctions prédéfinies ni code pré-écrit.

Réactions de l'industrie et applications en entreprise

Michael Truell, PDG de Cursor, a déclaré que Claude Sonnet 4.5 excelle dans les tâches à long terme, ce qui est la raison pour laquelle de nombreux développeurs utilisant Cursor choisissent Claude pour résoudre des problèmes complexes. L'évaluation préliminaire de l'équipe GitHub Copilot a montré que le modèle présente des améliorations significatives en matière de raisonnement en plusieurs étapes et de compréhension du code, permettant à l'expérience d'agent de Copilot de mieux gérer les tâches complexes à travers les bases de code.

Dans les applications d'entreprise, l'organisation de sécurité HackerOne a signalé une réduction de 44 % du temps de réponse aux vulnérabilités après l'utilisation de Claude Sonnet 4.5. Des institutions financières comme Norges Bank Investment Management utilisent également le modèle pour l'analyse financière de qualité investissement, tandis que les développeurs de Netflix et GitHub l'utilisent pour gérer des bases de code complexes.

Améliorations de la sécurité

Claude Sonnet 4.5 est lancé avec des mesures de protection de niveau de sécurité d'IA 3 (ASL-3), incluant des classificateurs conçus pour détecter les entrées et sorties potentiellement dangereuses, en particulier celles liées aux armes chimiques, biologiques, radiologiques et nucléaires. Mike Krieger, directeur des produits chez Anthropic, a qualifié cela de "plus grande amélioration de la sécurité au cours de la dernière année à un an et demi".

Anthropic a déclaré qu'il s'agissait du modèle de pointe le plus aligné publié par la société, ayant réalisé des progrès substantiels dans la réduction des comportements préoccupants tels que la flatterie, la tromperie, la recherche de pouvoir et l'encouragement de la pensée délirante. La résistance du modèle aux attaques par injection de prompt a également été renforcée.

Paysage concurrentiel du marché

Le lancement de Claude Sonnet 4.5 intervient moins de deux mois après le précédent modèle d'Anthropic, Claude Opus 4.1, ce qui témoigne de la concurrence rapide en matière d'innovation dans l'industrie de l'IA. Le modèle a été publié quelques jours avant la conférence annuelle des développeurs d'OpenAI, et Microsoft venait d'ajouter les modèles Claude à Copilot 365 la semaine précédente.

Au cours de la dernière année, les modèles d'IA d'Anthropic sont devenus le choix privilégié des développeurs et des entreprises en raison de leurs solides performances dans les tâches d'ingénierie logicielle. Il a été rapporté qu'Apple et Meta utilisent les modèles d'IA Claude en interne, et Anthropic a généré des revenus commerciaux considérables en vendant l'accès à son API à des applications de programmation IA telles que Cursor, Windsurf et Replit.

Anthropic a déclaré que Claude Code génère désormais plus de 500 millions de dollars de revenus d'exploitation, avec une croissance de l'utilisation de plus de 10 fois au cours des trois derniers mois.

Perspectives d'avenir

Jared Kaplan, scientifique en chef chez Anthropic, a révélé que la société prévoyait une ou deux autres publications de modèles d'ici la fin de l'année, dont "très probablement" une nouvelle version d'Opus. Krieger a déclaré que Claude Sonnet 4.5 deviendrait le choix par défaut des utilisateurs, Anthropic recommandant ce modèle pour "pratiquement tous les cas d'utilisation".

Cependant, les observateurs de l'industrie notent que ce domaine évolue si rapidement qu'il est incertain combien de temps Claude Sonnet 4.5 pourra conserver le titre de "meilleur modèle de programmation" avec l'arrivée imminente de Gemini 3, selon les rumeurs.