Anthropic stellt Claude Sonnet 4.5 vor: Autonomes Programmieren für 30 Stunden, setzt neue Grenzen für KI-Codefähigkeiten
Zusammenfassung
Anthropic hat am 29. September 2025 Claude Sonnet 4.5 veröffentlicht, das bisher leistungsstärkste KI-Modell für die Programmierung des Unternehmens. Das Modell erreichte einen Wert von 77,2 % im SWE-bench Verified Benchmark-Test und übertraf damit die Konkurrenzprodukte von OpenAI und Google bei realen Software-Engineering-Aufgaben. Claude Sonnet 4.5 kann über 30 Stunden autonom arbeiten und bleibt dabei auf komplexe, mehrstufige Aufgaben konzentriert, während das zuvor im Mai veröffentlichte Opus 4-Modell nur 7 Stunden lief.
Technischer Leistungssprung
Im OSWorld-Benchmark erreichte Claude Sonnet 4.5 einen Wert von 61,4 %, eine deutliche Verbesserung gegenüber den 42,2 % von Claude Sonnet 4 vor vier Monaten. Der OSWorld-Test bewertet die Leistung von KI-Modellen bei realen Computeraufgaben, einschließlich Website-Navigation, Tabellenkalkulations-Befüllung und dem Abschluss von Desktop-Aufgaben.
David Hershey, Forscher bei Anthropic, beobachtete in frühen Unternehmenskunden-Tests, dass Claude Sonnet 4.5 bis zu 30 Stunden autonom programmieren konnte. Dabei erstellte es nicht nur Anwendungen, sondern konfigurierte auch Datenbankdienste, kaufte Domainnamen und führte SOC 2-Sicherheitsaudits durch.
Das Modell zeichnet sich durch Code-Planung und Systemdesign aus, trifft bessere Architektur-Entscheidungen und organisiert den Code besser. Auch im Bereich Security Engineering gab es Verbesserungen, mit stärkeren Sicherheitspraktiken und besseren Fähigkeiten zur Schwachstellen-Erkennung.
Preise und Verfügbarkeit
Die API-Preise für Claude Sonnet 4.5 bleiben unverändert bei 3 US-Dollar pro Million Input-Tokens und 15 US-Dollar pro Million Output-Tokens, identisch mit dem Vorgänger Claude Sonnet 4. Diese Preisstrategie ist im Vergleich zum Konkurrenten GPT-5 (1,25 US-Dollar pro Million Input-Tokens, 10 US-Dollar pro Million Output-Tokens) immer noch höher, doch Anthropic versucht, seinen Premium-Preis durch Leistungsvorteile zu rechtfertigen.
Das Modell ist ab sofort über die Claude.ai-Weboberfläche, iOS- und Android-Apps, die Claude API, Amazon Bedrock und Google Cloud's Vertex AI verfügbar. Entwickler können es über den Modell-String claude-sonnet-4-5 aufrufen. GitHub Copilot hat Claude Sonnet 4.5 ebenfalls integriert und steht Nutzern von Copilot Pro, Pro+, Business und Enterprise zur Verfügung.
Produkt-Ökosystem-Updates
Anthropic hat gleichzeitig mehrere Produkt-Upgrades veröffentlicht, darunter die mit Spannung erwartete Checkpoint-Funktion in Claude Code, die es Nutzern ermöglicht, den Fortschritt zu speichern und jederzeit zu früheren Zuständen zurückzukehren; eine brandneue Terminal-Oberfläche; und eine native VS Code-Erweiterung.
Die Claude-App unterstützt jetzt die direkte Ausführung von Code und das Erstellen von Dateien in Unterhaltungen, einschließlich Tabellenkalkulationen, Präsentationen und Dokumenten. Anthropic hat auch das Claude Agent SDK eingeführt, das dieselbe Infrastruktur wie Claude Code nutzt und Entwicklern ermöglicht, ihre eigenen KI-Agenten zu erstellen.
Das Unternehmen hat außerdem für Max-Abonnenten ein 5-tägiges Forschungsvorschauprojekt namens "Imagine with Claude" gestartet, das die Fähigkeit des KI-Modells demonstriert, Software in Echtzeit zu generieren, ohne vorherige Festlegung von Funktionen oder vorab geschriebenen Code.
Branchenreaktion und Unternehmensanwendungen
Michael Truell, CEO von Cursor, erklärte, dass Claude Sonnet 4.5 bei langfristigen Aufgaben hervorragende Leistungen erbringt, weshalb viele Entwickler, die Cursor nutzen, Claude zur Lösung komplexer Probleme wählen. Erste Bewertungen des GitHub Copilot-Teams zeigen deutliche Verbesserungen beim mehrstufigen Denken und Code-Verständnis, wodurch die Agenten-Erfahrung von Copilot komplexe Aufgaben über Codebasen hinweg besser bewältigen kann.
Im Bereich der Unternehmensanwendungen berichtete die Sicherheitsorganisation HackerOne von einer Reduzierung der Reaktionszeit auf Schwachstellen um 44 % durch den Einsatz von Claude Sonnet 4.5. Finanzinstitute wie Norges Bank Investment Management nutzen das Modell für Investment-Grade-Finanzanalysen, während Entwickler bei Netflix und GitHub es für komplexe Aufgaben in Codebasen verwenden.
Sicherheitsverbesserungen
Claude Sonnet 4.5 wurde unter den Schutzmaßnahmen von AI Safety Level 3 (ASL-3) veröffentlicht, einschließlich Klassifikatoren, die darauf ausgelegt sind, potenziell gefährliche Eingaben und Ausgaben zu erkennen, insbesondere Inhalte im Zusammenhang mit chemischen, biologischen, radiologischen und nuklearen Waffen. Mike Krieger, Chief Product Officer von Anthropic, bezeichnete dies als "die größte Sicherheitsverbesserung im letzten anderthalb Jahr".
Anthropic erklärt, dass dies das am besten ausgerichtete Spitzenmodell des Unternehmens ist, das erhebliche Fortschritte bei der Reduzierung besorgniserregender Verhaltensweisen wie Schmeichelei, Täuschung, Machtstreben und der Förderung von Wahnvorstellungen erzielt hat. Die Widerstandsfähigkeit des Modells gegenüber Prompt-Injection-Angriffen wurde ebenfalls verstärkt.
Marktwettbewerb
Die Veröffentlichung von Claude Sonnet 4.5 erfolgte weniger als zwei Monate nach dem vorherigen Modell von Anthropic, Claude Opus 4.1, was den schnelllebigen Innovationswettbewerb in der KI-Branche widerspiegelt. Das Modell wurde wenige Tage vor der jährlichen Entwicklerkonferenz von OpenAI veröffentlicht, und Microsoft hatte erst letzte Woche Claude-Modelle zu Copilot 365 hinzugefügt.
Im vergangenen Jahr sind die KI-Modelle von Anthropic aufgrund ihrer starken Leistung bei Software-Engineering-Aufgaben zu einer bevorzugten Wahl für Entwickler und Unternehmen geworden. Berichten zufolge nutzen Apple und Meta Claude KI-Modelle intern, und Anthropic erzielt beträchtliche Geschäftseinnahmen durch den Verkauf von API-Zugängen an KI-Programmieranwendungen wie Cursor, Windsurf und Replit.
Anthropic gibt an, dass Claude Code jetzt über 500 Millionen US-Dollar an Betriebseinnahmen generiert und die Nutzung in den letzten drei Monaten um mehr als das Zehnfache gestiegen ist.
Zukunftsausblick
Jared Kaplan, Chief Scientist von Anthropic, enthüllte Pläne für ein oder zwei weitere Modellveröffentlichungen bis Jahresende, darunter "sehr wahrscheinlich eine neue Version von Opus". Krieger erklärte, dass Claude Sonnet 4.5 die Standardwahl für Nutzer werden wird, und Anthropic empfiehlt dieses Modell für "im Grunde alle Anwendungsfälle".
Branchenbeobachter merken jedoch an, dass sich dieser Bereich so schnell entwickelt, dass es ungewiss ist, wie lange Claude Sonnet 4.5 den Titel "bestes Programmier-Modell" angesichts der Gerüchte über die bevorstehende Veröffentlichung von Gemini 3 behalten kann.