Anthropic 发布 Claude Opus 4.6:革命性智能体团队和百万 token 上下文变革企业级AI格局

2026-02-06
Anthropic, Claude
8 min

新闻摘要

Anthropic 于 2026 年 2 月 5 日星期四(太平洋标准时间)发布了 Claude Opus 4.6,标志着企业人工智能能力取得了重大进展。这款新的旗舰模型拥有突破性的 100 万个 token 上下文窗口、革命性的“代理团队”功能,并在编码、财务分析和知识工作基准测试中表现出最先进的性能,使其成为 OpenAI GPT-5.2 的直接竞争对手。

Anthropic 发布 Claude Opus 4.6:企业级 AI 凭借代理团队和百万 token 上下文实现飞跃

旧金山,2026 年 2 月 5 日 — Anthropic 于周四上午(太平洋标准时间)发布了 Claude Opus 4.6,推出了该公司所称的企业人工智能的范式转变。其旗舰模型的最新迭代在自主任务执行、扩展推理和协作式 AI 工作流程方面提供了前所未有的能力。

革命性的上下文窗口扩展 AI 能力

Claude Opus 4.6 成为 Anthropic Opus 系列中首款支持 100 万个 token 上下文窗口的模型,将其与谷歌的 Gemini 模型一同归入超长上下文类别。这种大规模的扩展允许模型在单个提示中处理约 1,500 页文本、30,000 行代码或超过一小时的视频内容。

该模型在 MRCR v2 基准测试中表现出色,在“大海捞针”式信息检索任务中准确率达到 76%,而其前代产品 Claude Sonnet 4.5 的准确率仅为 18.5%。据 Anthropic 称,这代表着在消除“上下文衰减”(模型在长时间对话中性能下降)方面取得了质的飞跃。

代理团队:复杂工作流程的并行处理

“代理团队”的引入标志着 Claude 处理复杂任务方式的根本性架构变革。与单个代理顺序执行任务不同,Opus 4.6 现在可以部署多个专门的代理并行工作,每个代理处理不同的组件,同时彼此直接协调。

Anthropic 企业产品负责人 Scott White 将此功能比作管理一个才华横溢的人类团队。“你可以将工作分配给多个代理——每个代理负责自己的部分并与其他代理直接协调,”White 在接受 TechCrunch 采访时解释道。此功能目前对 API 用户和订阅客户提供研究预览。

在专业领域的主导地位

Claude Opus 4.6 在多个行业标准评估中创下了新的性能记录:

**卓越的编码能力:**该模型在 Terminal-Bench 2.0 上得分 65.4%,这是该代理编码评估的最高得分。它还在 OSWorld 代理计算机使用基准测试中领先竞争对手,得分 72.7%,而 Opus 4.5 为 66.3%。

**财务和法律分析:**在衡量经济价值知识工作性能的 GDPval-AA 上,Opus 4.6 获得了 1,606 Elo 分——比 OpenAI 的 GPT-5.2 高出约 144 Elo 分,比其前代产品高出 190 分。该模型在 BigLaw Bench 上也达到了 90.2%,这是 Claude 模型在法律推理任务上的最高得分。

**新颖的问题解决能力:**也许最值得注意的是,Opus 4.6 在 ARC AGI 2 基准测试中得分 68.8%,该测试旨在评估对人类来说容易但对人工智能系统来说极其困难的问题。这比 Opus 4.5 的 37.6% 的得分提高了 83%。

**信息检索:**该模型在 BrowseComp 上取得了行业最高分,展示了在网络上查找难以找到信息的卓越能力。

Microsoft Office 集成深化

Anthropic 宣布对其 Office 套件集成进行了重大升级。Excel 中的 Claude 现在可以处理更长、更复杂的任务,并在单个操作中应用多步转换,而无需显式结构解释。

该公司还推出了 PowerPoint 中的 Claude 作为研究预览,使 AI 能够读取现有的幻灯片布局、字体和公司模板,然后生成或编辑保持品牌一致性的演示文稿。此集成对 Max、Team 和 Enterprise 计划客户提供测试版。

面向开发者的先进 API 控制

Opus 4.6 为 API 开发者引入了多项高级功能:

**自适应思维:**模型可以自主确定何时采用更深入的推理而非快速响应,利用上下文线索来平衡质量与延迟和成本。

**努力程度:**开发者可以通过四种努力设置(低、中、高和最大)获得明确的控制,从而在智能、速度和计算成本之间进行精确的权衡。

**上下文压缩:**一项测试功能,可在上下文限制接近时自动总结较旧的对话片段,从而实现极长的交互而不会降低性能。

市场影响和企业采用

此次发布引发了显著的市场反应。在本周早些时候 Anthropic 公布其 Cowork 工具的行业特定插件后,软件股票经历了大幅波动。周二,汤森路透股价下跌 15.83%,LegalZoom 下跌近 20%,投资者权衡了人工智能取代专业研究和财务分析软件的潜力。

尽管存在这些市场担忧,企业采用仍在加速。根据最近的一项 Andreessen Horowitz 调查,44% 的企业现在在生产环境中使用 Anthropic——这是自 2025 年 5 月以来任何前沿 AI 实验室中份额增长最大的。

实际部署前景光明

早期合作伙伴报告了生产力的显著提高。乐天部署了 Opus 4.6 来自主管理一个 50 人的组织,并在一天内成功解决了 13 个问题。Notion 的 AI 负责人 Sarah Sachs 将该模型描述为从一个工具演变成“一个真正有能力的协作者”。

AI 编码平台 Cursor 的联合创始人 Michael Truell 指出了该模型在应对挑战性问题上的持久性:“Claude Opus 4.6 在最困难的问题上表现出色。它表现出更强的持久性、更强的代码审查能力,以及在其他模型往往会放弃的长任务中保持下去的能力。”

定价和可用性

Anthropic 将其具有竞争力的定价结构保持在每百万输入 token 5 美元,每百万输出 token 25 美元。该模型可通过 claude.ai、Claude API(模型 ID:claude-opus-4-6)以及包括 Amazon Web Services、Google Cloud 和 Microsoft Azure 在内的所有主要云平台立即获得。

该模型也正在集成到 GitHub Copilot 中,并逐步向 Copilot Pro、Pro+、Business 和 Enterprise 用户推出。

安全和对齐承诺

根据 Anthropic 的广泛系统卡,Opus 4.6 保持了与任何其他前沿模型相当或更好的整体安全性能,在安全评估中失调行为的发生率很低。该公司强调,安全并未因性能提升而牺牲。

行业背景和竞争

此次发布发生在 OpenAI 发布 Codex 仅 72 小时后,凸显了人工智能开发工具竞争的加速步伐。White 告诉媒体,Anthropic 已将 Claude 从“一个你可以与之交谈以完成一项小任务的模型”转变为“你可以真正将其用于处理重要工作的对象”。

此次发布使 Anthropic 能够应对 White 所称的“氛围工作”时代,即知识工作者越来越多地将实质性的专业任务委托给能够以最少监督自主执行的人工智能系统。

Claude Opus 4.6 代表了 Anthropic 迄今为止最雄心勃勃的企业级人工智能产品,它结合了上下文处理、并行代理协调和领域专业知识方面的技术进步,以挑战关于人工智能在专业工作流程中作用的普遍假设。