Anthropic 的 Sonnet 4.6 弥补差距：中端 AI 现已媲美去年的旗舰模型

2026-02-18

Claude

5 min

新闻摘要

Anthropic 于 2026 年 2 月 17 日星期二（太平洋标准时间上午 10:00）正式发布了 Claude Sonnet 4.6，这是该公司在不到两周内发布的第二款主要人工智能模型。此次发布紧随 2026 年 2 月 5 日发布的 Claude Opus 4.6（13 天前），凸显了前沿人工智能行业的飞速发展。

新模型将成为 Claude.ai（Claude 的网页界面）和新发布的 Claude Cowork 桌面应用程序上 免费和专业版用户默认使用 的模型，且无需额外费用。

新增功能：主要升级

1. 上下文窗口扩展 — 100 万个 token（测试版）

核心功能是 100 万个 token 的上下文窗口，现已推出测试版，是 Sonnet 系列模型之前提供的最大上下文窗口的两倍。Anthropic 称其足以容纳“整个代码库、冗长的合同或数十篇研究论文在一个请求中”——这一功能以前仅限于 Opus 4.6。

2. 编码能力大幅提升

Anthropic 表示，早期用户“在很大程度上更喜欢 Sonnet 4.6 而非其前代产品”，并且在许多情况下甚至更喜欢它而非之前的旗舰产品 Claude Opus 4.5（2025 年 11 月）。改进包括更强的连贯性、更好的指令遵循能力、长上下文代码推理以及更智能的调试逻辑。Anthropic 的代理编码 CLI Claude Code 在与先前模型相比时，约有 70% 的时间 更喜欢 Sonnet 4.6 的输出。

3. 高级计算机使用技能

在 OSWorld-Verified 基准测试中——该测试旨在评估 AI 代理在真实桌面和 Web 软件中的导航能力——Sonnet 4.6 得分为 72.5%，高于前代 Sonnet 模型的 61.4%，甚至超过了 Claude Opus 4.5 的 66.3%。在此指标上，它仅以 0.2 个百分点的微弱差距落后于 Anthropic 自家的旗舰产品 Opus 4.6。

4. 代理办公任务性能

Anthropic 将 Sonnet 4.6 定位为能够完成以前需要 Opus 系列模型才能完成的复杂办公任务——包括导航电子表格、填写多步 Web 表单以及管理多标签浏览器研究会话。Box 首席技术官 Ben Kus 证实，在企业文档工作流程中，Sonnet 4.6 在深度推理问答任务上的表现比其前代产品 提高了 15 个百分点。

5. 更强的安全性能

根据 Anthropic 的内部安全评估，与 Sonnet 4.5 相比，Sonnet 4.6 在抵抗幻觉和外部操纵方面有了显著改进，并且在安全基准测试中的表现与 Opus 4.6 相似。Anthropic 将该模型描述为具有“广泛的温暖、诚实、亲社会，有时甚至幽默的性格”。

定价：与之前相同

尽管功能得到了显著增强，Anthropic 通过 API 保持价格不变，为 每百万输入 token 3 美元，每百万输出 token 15 美元——与 Sonnet 4.5 完全相同。个人用户的 Claude Pro 价格仍为 20 美元/月（或按年计费为 17 美元/月）。Claude Opus 4.6 的价格仍为每百万 token 5 美元/25 美元。

竞争格局

此次发布加剧了与 OpenAI 和 Google 的竞争。内部基准测试显示，在代理金融分析和办公工作负载方面，Sonnet 4.6 的表现优于 Google Gemini 3 Pro 和 OpenAI GPT 5.2。在某些类别中，Sonnet 4.6 甚至超越了 Anthropic 自家的 Opus 4.6——这是一个显著的内部跨越。

Anthropic 的企业增长势头正在加速：年支出超过 10 万美元的 Claude 客户数量同比增长 7 倍，年支出超过 100 万美元的客户数量从两年前的大约 12 家增长到今天的 500 多家。该公司在完成 300 亿美元的融资后，最近的估值为 3800 亿美元。

未来展望

预计在未来几周内将推出更新的 Haiku 模型（Anthropic 最小、最快的级别），这将完成 4.6 系列模型的全面更新。Claude Cowork 的 Windows 版本 也在开发中，目前仅在 macOS 上可用。

总结

Claude Sonnet 4.6 代表着一种战略举措，旨在以中等价位提供 Opus 系列的性能——将先进的人工智能普及到日常企业应用中。随着人工智能模型竞赛从纯粹的基准测试转向运营效率，Anthropic 在实际吞吐量、安全性和成本优化方面的押注可能会定义企业人工智能采用的下一阶段。