Anthropic推出Claude Sonnet 4.5:自主程式設計30小時,刷新AI代碼能力上限

October 04, 2025
AnthropicC
6 min

摘要

Anthropic 於 2025 年 9 月 29 日發布了 Claude Sonnet 4.5,這是該公司迄今為止最強大的程式設計 AI 模型。該模型在 SWE-bench Verified 基準測試中得分 77.2%,在實際軟體工程任務中超越了 OpenAI 和 Google 的同類產品。Claude Sonnet 4.5 可以自主工作超過 30 小時,在複雜的多步驟任務中保持專注,而此前 5 月發布的 Opus 4 模型只能運行 7 小時。

技術性能突破

在 OSWorld 基準測試中,Claude Sonnet 4.5 的得分達到 61.4%,相比四個月前 Claude Sonnet 4 的 42.2% 有顯著提升。OSWorld 測試評估 AI 模型在真實電腦任務中的表現,包括網站導航、電子表格填寫和桌面任務完成等能力。

Anthropic 研究員 David Hershey 表示,在早期企業客戶試驗中,他觀察到 Claude Sonnet 4.5 能夠自主程式設計長達 30 小時,期間不僅建構應用程式,還能配置資料庫服務、購買網域名稱並執行 SOC 2 安全稽核。

該模型在程式碼規劃和系統設計方面表現出色,能做出更好的架構決策和程式碼組織,在安全工程方面也有改進,提供更強大的安全實踐和漏洞檢測能力。

定價與可用性

Claude Sonnet 4.5 的 API 定價保持不變,為每百萬輸入 token 3 美元,每百萬輸出 token 15 美元,與前代 Claude Sonnet 4 價格相同。這一定價策略相比競爭對手 GPT-5(每百萬輸入 token 1.25 美元,輸出 token 10 美元)仍然偏高,但 Anthropic 試圖透過性能優勢來證明其溢價的合理性。

該模型現已在 Claude.ai 網頁介面、iOS 和 Android 應用程式、Claude API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 等平台推出,開發者可透過 claude-sonnet-4-5 模型字串呼叫。GitHub Copilot 也已整合 Claude Sonnet 4.5,面向 Copilot Pro、Pro+、Business 和 Enterprise 用戶開放。

產品生態更新

Anthropic 同步發布了多項產品升級,包括 Claude Code 中備受期待的檢查點功能,允許用戶保存進度並隨時回溯到之前的狀態;全新的終端介面;以及原生 VS Code 擴充功能。

Claude 應用程式現在支援直接在對話中執行程式碼和建立檔案,包括電子表格、投影片和文件。Anthropic 還推出了 Claude Agent SDK,使用與 Claude Code 相同的基礎設施,讓開發者能夠建構自己的 AI 代理。

公司還為 Max 訂閱用戶推出了為期 5 天的研究預覽項目「Imagine with Claude」,展示 AI 模型即時生成軟體的能力,無需預先確定功能或預先編寫程式碼。

產業反響與企業應用

Cursor 執行長 Michael Truell 表示,Claude Sonnet 4.5 在長期任務上表現出色,這也是許多使用 Cursor 的開發者選擇 Claude 解決複雜問題的原因。GitHub Copilot 團隊的初步評估顯示,該模型在多步推理和程式碼理解方面有顯著改進,使 Copilot 的代理體驗能夠更好地處理跨程式碼庫的複雜任務。

在企業應用方面,安全組織 HackerOne 報告稱,使用 Claude Sonnet 4.5 後,漏洞回應時間減少了 44%。挪威央行投資管理公司等金融機構也在使用該模型進行投資級財務分析,Netflix 和 GitHub 的開發人員則用其處理複雜的程式碼庫任務。

安全性提升

Claude Sonnet 4.5 在 AI Safety Level 3 (ASL-3) 保護措施下發布,包括旨在檢測潛在危險輸入和輸出的分類器,特別是與化學、生物、放射性和核武器相關的內容。Anthropic 首席產品官 Mike Krieger 稱這是「過去一年到一年半中安全性最大的提升」。

Anthropic 表示,這是該公司發布的最對齊的前沿模型,在減少阿諛奉承、欺騙、權力追求和鼓勵妄想思維等令人擔憂的行為方面取得了實質性進展。該模型對提示注入攻擊的抵抗力也有所增強。

市場競爭態勢

Claude Sonnet 4.5 的發布距離 Anthropic 上一款模型 Claude Opus 4.1 僅不到兩個月,這體現了 AI 行業快節奏的創新競爭。該模型在 OpenAI 年度開發者大會前幾天發布,而微軟上週剛將 Claude 模型添加到 Copilot 365 中。

在過去一年中,Anthropic 的 AI 模型因在軟體工程任務上的強勁表現,已成為開發者和企業的首選。據報導,Apple 和 Meta 在內部使用 Claude AI 模型,Anthropic 透過向 Cursor、Windsurf 和 Replit 等 AI 程式設計應用程式銷售 API 存取權獲得了可觀的業務收入。

Anthropic 表示,Claude Code 現在產生超過 5 億美元的營運收入,過去三個月使用量增長超過 10 倍。

未來展望

Anthropic 首席科學家 Jared Kaplan 透露,公司計劃在年底前還會有一到兩次模型發布,其中「很可能包括 Opus」新版本。Krieger 表示,Claude Sonnet 4.5 將成為用戶的預設選擇,Anthropic 推薦「基本上所有用例」都使用這個模型。

然而,業界觀察者指出,這個領域發展如此之快,隨著傳聞中 Gemini 3 的即將到來,Claude Sonnet 4.5 能保持「最佳程式設計模型」稱號多久尚不確定。