Anthropic 的 Sonnet 4.6 彌補差距:中階 AI 現已媲美去年的旗艦產品
新聞摘要
Anthropic 公司於 2026 年 2 月 17 日星期二(太平洋標準時間上午 10:00)正式推出了 Claude Sonnet 4.6,這是該公司在不到兩週內發布的第二個主要 AI 模型。此次發布緊隨 2026 年 2 月 5 日 Claude Opus 4.6 的首次亮相(早 13 天),凸顯了前沿 AI 行業的飛速發展步伐。
新模型將免費提供給 Claude.ai(Claude 的網頁介面)和新發布的 Claude Cowork 桌面應用程式的免費和 Pro 方案用戶,且無需額外費用。
新功能:主要升級
1. 擴展的上下文窗口 — 100 萬個 token(測試版)
最引人注目的功能是100 萬個 token 的上下文窗口,現已推出測試版,是 Sonnet 系列模型先前提供的最大上下文容量的兩倍。Anthropic 將其描述為足以容納「整個程式碼庫、冗長的合約或數十篇研究論文於單一請求中」——這項功能先前僅限於 Opus 4.6。
2. 編碼能力大幅提升
Anthropic 表示,早期使用者「在很大程度上更喜歡 Sonnet 4.6 而非其前代產品」,並且在許多情況下甚至更喜歡它而非先前旗艦級的 Claude Opus 4.5(2025 年 11 月)。改進包括更強的一致性、更好的指令遵循能力、長上下文程式碼推理以及更智能的除錯邏輯。Claude Code(Anthropic 的代理式編碼 CLI)在輸出方面,約有 70% 的時間選擇 Sonnet 4.6 而非先前模型。
3. 先進的電腦使用技能
在 OSWorld-Verified 基準測試中(該測試評估 AI 代理導航真實桌面和網頁軟體的能力),Sonnet 4.6 的得分為 72.5%,高於先前 Sonnet 模型的 61.4%,甚至超過了 Claude Opus 4.5 的 66.3%。在此指標上,它僅以 0.2 個百分點的差距落後於 Anthropic 自家的旗艦級 Opus 4.6。
4. 代理式辦公任務性能
Anthropic 將 Sonnet 4.6 定位為能夠完成先前需要 Opus 系列模型才能完成的複雜辦公任務,包括導航電子表格、填寫多步驟網頁表單以及管理多標籤頁瀏覽器研究會話。Box 的 CTO Ben Kus 確認,在企業文件工作流程中,Sonnet 4.6 在深度推理問答任務上的表現比其前代產品高出 15 個百分點。
5. 更強的安全性能
根據 Anthropic 的內部安全評估,與 Sonnet 4.5 相比,Sonnet 4.6 在抵抗幻覺和外部操縱方面有了顯著的進步,並且在安全基準測試中的表現與 Opus 4.6 相似。Anthropic 將該模型描述為具有「廣泛的溫暖、誠實、親社會,有時也很有趣的特質」。
定價:與先前相同
儘管功能大幅升級,Anthropic 透過 API 將定價維持不變,為每百萬個輸入 token 3 美元,每百萬個輸出 token 15 美元,與 Sonnet 4.5 相同。個人用戶的 Claude Pro 方案仍為每月 20 美元(年付則為每月 17 美元)。Claude Opus 4.6 的定價則維持每百萬 token 5 美元/25 美元。
市場競爭格局
此次發布加劇了與 OpenAI 和 Google 的競爭。內部基準測試顯示,在代理式金融分析和辦公工作負載方面,Sonnet 4.6 的表現優於Google Gemini 3 Pro 和 OpenAI GPT 5.2。在某些類別中,Sonnet 4.6 甚至超越了 Anthropic 自家的 Opus 4.6,這是一個顯著的內部超越。
Anthropic 的企業業務勢頭正在加速:年支出超過 10 萬美元的 Claude 客戶數量同比增長了 7 倍,而年支出超過 100 萬美元的客戶數量從兩年前的大約 12 家增長到如今的超過 500 家。該公司在最近一輪 300 億美元的融資後,估值達到了 3800 億美元。
後續發展
預計未來幾週將推出更新的Haiku 模型(Anthropic 最小、最快的級別),這將可能完成 4.6 系列模型的全面更新。Claude Cowork 的 Windows 版本也正在開發中,目前僅在 macOS 上提供。
總結
Claude Sonnet 4.6 代表了一項策略性舉措,旨在以中等級別的價格提供 Opus 系列的性能,從而將先進 AI 普及到日常企業應用中。隨著 AI 模型競賽從單純的基準測試轉向營運效率,Anthropic 在實際吞吐量、安全性和成本優化方面的押注,很可能會定義企業 AI 採用的下一個階段。