Anthropic presenta Claude Sonnet 4.5: Programación autónoma durante 30 horas, superando los límites de la capacidad de código de la IA

October 04, 2025

AnthropicC

6 min

Resumen

Anthropic lanzó Claude Sonnet 4.5 el 29 de septiembre de 2025, su modelo de IA de programación más potente hasta la fecha. El modelo obtuvo una puntuación del 77.2% en el benchmark SWE-bench Verified, superando a sus homólogos de OpenAI y Google en tareas reales de ingeniería de software. Claude Sonnet 4.5 puede trabajar de forma autónoma durante más de 30 horas, manteniendo la concentración en tareas complejas de varios pasos, mientras que el modelo Opus 4, lanzado en mayo, solo podía funcionar durante 7 horas.

Avance en el rendimiento técnico

En el benchmark OSWorld, Claude Sonnet 4.5 alcanzó una puntuación del 61.4%, una mejora significativa respecto al 42.2% de Claude Sonnet 4 hace cuatro meses. La prueba OSWorld evalúa el rendimiento de los modelos de IA en tareas informáticas reales, incluyendo la navegación por sitios web, el llenado de hojas de cálculo y la realización de tareas de escritorio.

David Hershey, investigador de Anthropic, afirmó que en las primeras pruebas con clientes empresariales, observó que Claude Sonnet 4.5 era capaz de programar de forma autónoma durante 30 horas, no solo construyendo aplicaciones, sino también configurando servicios de bases de datos, comprando nombres de dominio y realizando auditorías de seguridad SOC 2.

El modelo destaca en la planificación de código y el diseño de sistemas, tomando mejores decisiones arquitectónicas y organizando mejor el código. También ha mejorado en ingeniería de seguridad, ofreciendo prácticas de seguridad más sólidas y capacidades de detección de vulnerabilidades.

Precios y disponibilidad

El precio de la API de Claude Sonnet 4.5 se mantiene sin cambios, a 3 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida, el mismo precio que su predecesor Claude Sonnet 4. Esta estrategia de precios sigue siendo más alta en comparación con su competidor GPT-5 (1.25 dólares por millón de tokens de entrada y 10 dólares por millón de tokens de salida), pero Anthropic intenta justificar su prima a través de su ventaja de rendimiento.

El modelo ya está disponible en la interfaz web de Claude.ai, las aplicaciones de iOS y Android, la API de Claude, Amazon Bedrock y Vertex AI de Google Cloud. Los desarrolladores pueden invocarlo utilizando la cadena de modelo claude-sonnet-4-5. GitHub Copilot también ha integrado Claude Sonnet 4.5, disponible para usuarios de Copilot Pro, Pro+, Business y Enterprise.

Actualizaciones del ecosistema de productos

Anthropic lanzó simultáneamente varias actualizaciones de productos, incluida la tan esperada función de puntos de control en Claude Code, que permite a los usuarios guardar el progreso y revertir a estados anteriores en cualquier momento; una nueva interfaz de terminal; y una extensión nativa para VS Code.

La aplicación Claude ahora permite ejecutar código y crear archivos directamente en la conversación, incluyendo hojas de cálculo, presentaciones y documentos. Anthropic también presentó el SDK de Claude Agent, que utiliza la misma infraestructura que Claude Code, permitiendo a los desarrolladores construir sus propios agentes de IA.

La compañía también lanzó un programa de vista previa de investigación de 5 días para suscriptores Max, "Imagine with Claude", que muestra la capacidad de los modelos de IA para generar software en tiempo real, sin necesidad de determinar previamente la funcionalidad o preescribir código.

Reacción de la industria y aplicaciones empresariales

Michael Truell, CEO de Cursor, afirmó que Claude Sonnet 4.5 sobresale en tareas a largo plazo, razón por la cual muchos desarrolladores que usan Cursor eligen Claude para resolver problemas complejos. Las evaluaciones preliminares del equipo de GitHub Copilot muestran que el modelo ha mejorado significativamente en el razonamiento de múltiples pasos y la comprensión del código, lo que permite que la experiencia del agente de Copilot maneje mejor tareas complejas en bases de código.

En cuanto a las aplicaciones empresariales, la organización de seguridad HackerOne informó que el tiempo de respuesta a las vulnerabilidades se redujo en un 44% después de usar Claude Sonnet 4.5. Instituciones financieras como Norges Bank Investment Management también están utilizando el modelo para análisis financieros de grado de inversión, mientras que los desarrolladores de Netflix y GitHub lo emplean para manejar tareas complejas en sus bases de código.

Mejoras de seguridad

Claude Sonnet 4.5 se lanzó bajo las medidas de protección AI Safety Level 3 (ASL-3), que incluyen clasificadores diseñados para detectar entradas y salidas potencialmente peligrosas, particularmente aquellas relacionadas con armas químicas, biológicas, radiológicas y nucleares. Mike Krieger, director de producto de Anthropic, lo calificó como "la mayor mejora de seguridad en el último año o año y medio".

Anthropic afirmó que este es el modelo de vanguardia más alineado que ha lanzado la compañía, logrando un progreso sustancial en la reducción de comportamientos preocupantes como la adulación, el engaño, la búsqueda de poder y el fomento del pensamiento delirante. La resistencia del modelo a los ataques de inyección de prompts también se ha mejorado.

Panorama de la competencia en el mercado

El lanzamiento de Claude Sonnet 4.5 se produce menos de dos meses después del modelo anterior de Anthropic, Claude Opus 4.1, lo que refleja la rápida competencia innovadora en la industria de la IA. El modelo se lanzó días antes de la conferencia anual de desarrolladores de OpenAI, y Microsoft acababa de añadir los modelos de Claude a Copilot 365 la semana anterior.

En el último año, los modelos de IA de Anthropic se han convertido en la opción preferida para desarrolladores y empresas debido a su sólido rendimiento en tareas de ingeniería de software. Se informa que Apple y Meta utilizan modelos de IA de Claude internamente, y Anthropic ha generado ingresos comerciales considerables vendiendo acceso a la API a aplicaciones de programación de IA como Cursor, Windsurf y Replit.

Anthropic declaró que Claude Code ahora genera más de 500 millones de dólares en ingresos operativos, y su uso ha crecido más de 10 veces en los últimos tres meses.

Perspectivas futuras

Jared Kaplan, científico jefe de Anthropic, reveló que la compañía planea uno o dos lanzamientos de modelos más antes de fin de año, que "muy probablemente incluirán" una nueva versión de Opus. Krieger afirmó que Claude Sonnet 4.5 se convertirá en la opción predeterminada para los usuarios, y Anthropic recomienda este modelo para "prácticamente todos los casos de uso".

Sin embargo, los observadores de la industria señalan que este campo se desarrolla tan rápidamente que, con la inminente llegada del rumoreado Gemini 3, no está claro cuánto tiempo podrá Claude Sonnet 4.5 mantener el título de "mejor modelo de programación".