Anthropic重磅發布Claude Opus 4.5:首個突破80%程式設計基準的AI模型,性能超人類價格降67%

November 25, 2025
Anthropic
6 min

新聞摘要

Anthropic 於 2025 年 11 月 24 日正式發布其最新旗艦 AI 模型 Claude Opus 4.5,該模型在軟體開發、推理能力和複雜多步驟任務處理方面實現突破性提升,目前已透過 Claude 應用程式、API 和三大主流雲平台向用戶開放。這是繼 9 月推出 Sonnet 4.5 和 10 月推出 Haiku 4.5 之後,Anthropic 兩個月內的第三次重大模型發布,標誌著 AI 行業競爭進入白熱化階段。


Claude Opus 4.5 最顯著的變化是價格大幅下調,定價為每百萬輸入令牌 5 美元、輸出令牌 25 美元,相比前代 Opus 4.1 的 15/75 美元降幅達 67%,使頂級 AI 能力變得更加普惠。這一定價策略使其在與 OpenAI 的 GPT-5.1 (1.25/10 美元) 和 Google 的 Gemini 3 Pro (2/12 美元) 的競爭中更具吸引力。

在性能表現方面,Claude Opus 4.5 在 SWE-bench Verified 基準測試中達到 80.9% 的準確率,成為首個突破 80% 大關的模型,超越 OpenAI 的 GPT-5.1-Codex-Max (77.9%) 和 Google 的 Gemini 3 Pro (76.2%)。這項基準專門測試 AI 系統在真實軟體工程任務中的表現,Claude Opus 4.5 的成績代表了業界新標竿。

更令人震撼的是,Anthropic 使用公司招聘性能工程師時的實際技術考試對 Opus 4.5 進行測試,該模型的得分超過了所有人類應徵者的歷史最高分。這一結果引發了業界對 AI 技術如何重塑白領職業的深入討論。

技術層面,Claude Opus 4.5 配備 20 萬令牌上下文視窗和 6.4 萬令牌輸出限制,知識截止日期更新至 2025 年 3 月。模型在記憶體管理方面進行了重大改進,特別針對長上下文操作進行優化,能夠更智能地記住關鍵細節。這些改進使其特別適合作為主代理來指揮多個 Haiku 子代理的協同工作場景。

在實際應用中,早期測試者回饋稱 Opus 4.5 能夠處理 Sonnet 4.5 幾乎無法完成的任務,在面對複雜多系統問題時無需手把手指導即可找到解決方案。知名開發者 Simon Willison 在週末測試中使用 Claude Code 完成了 sqlite-utils 的大規模重構,在兩天內完成 20 次提交,涉及 39 個檔案、2022 行新增程式碼和 1173 行刪除。

安全性方面,Anthropic 表示 Opus 4.5 是迄今為止對齊最穩健的模型,在抵禦提示注入攻擊方面取得重大進展,比業內任何其他前沿模型都更難被欺騙。這對於將 Claude 用於關鍵任務的企業客戶尤為重要。

與模型發布同步,Anthropic 推出了一系列產品更新:Claude for Chrome 擴充功能現已向所有 Max 用戶開放,Claude for Excel 正式面向 Max、Team 和 Enterprise 用戶推出,支援資料透視表、圖表和檔案上傳。桌面版 Claude Code 應用程式也正式發布,支援 Windows、macOS 和 Windows (Arm 64) 平台,允許開發者並行運行多個編碼或研究會話。

值得注意的是,Anthropic 調整了使用限額,讓有權訪問 Opus 4.5 的用戶可以按類似之前 Sonnet 層級的水平使用該模型。這意味著用戶無需擔心在日常工作中受到過多限制。

市場競爭格局方面,微軟和輝達上週宣布對 Anthropic 進行數十億美元投資,使這家 AI 實驗室的估值提升至約 3500 億美元。Anthropic 在 2025 年第一季度實現了 20 億美元的年化收入,較上一季度的 10 億美元翻了一番,年支出超過 10 萬美元的客戶數量同比增長 8 倍。

Claude Opus 4.5 的發布正值 AI 行業激烈競爭時期。OpenAI 在 11 月 12 日發布了 GPT-5.1,Google 在 11 月 18 日推出 Gemini 3,如今 Anthropic 以 Opus 4.5 回應市場。Anthropic 產品負責人 Scott White 表示:「我們向市場發布的產品數量以及由此產生的回饋循環讓我感到無比興奮」。

對於目標用戶群體,White 指出 Opus 4.5 的理想用戶是專業軟體開發人員和知識工作者,如金融分析師、諮詢顧問和會計師,以及那些渴望推動創造力、建構新事物的人。

開發者可以透過 API 使用模型字串「claude-opus-4-5-20251101」來呼叫 Claude Opus 4.5,同時可享受提示快取的 90% 成本節省和批次處理的 50% 成本節省。該模型已在 Amazon Bedrock、Google Cloud 的 Vertex AI 和 Microsoft Foundry 等平台上线。

Anthropic 強調,Opus 4.5 是一款為「前所未有的用例」而生的高級模型,特別適合專業軟體工程、複雜代理工作流程和高風險企業任務。其混合推理能力允許在即時響應或擴展思考之間靈活切換,API 用戶可以精細調控模型在響應中投入的整體努力,在性能、延遲和成本之間取得平衡。

業界合作夥伴的回饋也印證了 Opus 4.5 的強大能力。Lovable 表示該模型在其聊天模式中提供前沿推理能力,深度推理改變了規劃方式,優秀的規劃使程式碼生成更出色。Warp 報告稱在 Terminal Bench 測試中,Opus 4.5 比 Sonnet 4.5 提升了 15%,這在 Planning Mode 使用中尤為明顯。金融建模公司 Fundamental Research Labs 聯合創始人 Nico Christie 表示,在內部評估中準確率提高了 20%,效率提升了 15%,曾經看似遙不可及的複雜任務現在變得可實現。

Claude Opus 4.5 的發布不僅代表著 Anthropic 技術實力的新突破,也預示著 AI 助手正在從簡單的問答工具演變為能夠獨立完成複雜專業任務的智能系統。隨著價格的大幅下降和能力的顯著提升,AI 技術的商業化應用有望進一步加速,為各行各業帶來深刻變革。