Anthropic重磅发布Claude Opus 4.5:首个突破80%编程基准的AI模型,性能超人类价格降67%

2025-11-25

Anthropic

5 min

新闻摘要

Anthropic于2025年11月24日正式发布其最新旗舰AI模型Claude Opus 4.5,该模型在软件开发、推理能力和复杂多步骤任务处理方面实现突破性提升,目前已通过Claude应用程序、API和三大主流云平台向用户开放。这是继9月推出Sonnet 4.5和10月推出Haiku 4.5之后,Anthropic两个月内的第三次重大模型发布,标志着AI行业竞争进入白热化阶段。

Claude Opus 4.5最显著的变化是价格大幅下调,定价为每百万输入令牌5美元、输出令牌25美元,相比前代Opus 4.1的15/75美元降幅达67%,使顶级AI能力变得更加普惠。这一定价策略使其在与OpenAI的GPT-5.1(1.25/10美元)和Google的Gemini 3 Pro(2/12美元)的竞争中更具吸引力。

在性能表现方面,Claude Opus 4.5在SWE-bench Verified基准测试中达到80.9%的准确率,成为首个突破80%大关的模型,超越OpenAI的GPT-5.1-Codex-Max(77.9%)和Google的Gemini 3 Pro(76.2%)。这项基准专门测试AI系统在真实软件工程任务中的表现,Claude Opus 4.5的成绩代表了业界新标杆。

更令人震撼的是,Anthropic使用公司招聘性能工程师时的实际技术考试对Opus 4.5进行测试,该模型的得分超过了所有人类应聘者的历史最高分。这一结果引发了业界对AI技术如何重塑白领职业的深入讨论。

技术层面,Claude Opus 4.5配备20万令牌上下文窗口和6.4万令牌输出限制,知识截止日期更新至2025年3月。模型在内存管理方面进行了重大改进,特别针对长上下文操作进行优化,能够更智能地记住关键细节。这些改进使其特别适合作为主代理来指挥多个Haiku子代理的协同工作场景。

在实际应用中,早期测试者反馈称Opus 4.5能够处理Sonnet 4.5几乎无法完成的任务,在面对复杂多系统问题时无需手把手指导即可找到解决方案。知名开发者Simon Willison在周末测试中使用Claude Code完成了sqlite-utils的大规模重构,在两天内完成20次提交,涉及39个文件、2022行新增代码和1173行删除。

安全性方面,Anthropic表示Opus 4.5是迄今为止对齐最稳健的模型,在抵御提示注入攻击方面取得重大进展,比业内任何其他前沿模型都更难被欺骗。这对于将Claude用于关键任务的企业客户尤为重要。

与模型发布同步,Anthropic推出了一系列产品更新:Claude for Chrome扩展现已向所有Max用户开放,Claude for Excel正式面向Max、Team和Enterprise用户推出,支持数据透视表、图表和文件上传。桌面版Claude Code应用也正式发布,支持Windows、macOS和Windows(Arm 64)平台,允许开发者并行运行多个编码或研究会话。

值得注意的是,Anthropic调整了使用限额,让有权访问Opus 4.5的用户可以按类似之前Sonnet层级的水平使用该模型。这意味着用户无需担心在日常工作中受到过多限制。

市场竞争格局方面,微软和英伟达上周宣布对Anthropic进行数十亿美元投资,使这家AI实验室的估值提升至约3500亿美元。Anthropic在2025年第一季度实现了20亿美元的年化收入,较上一季度的10亿美元翻了一番,年支出超过10万美元的客户数量同比增长8倍。

Claude Opus 4.5的发布正值AI行业激烈竞争时期。OpenAI在11月12日发布了GPT-5.1,Google在11月18日推出Gemini 3,如今Anthropic以Opus 4.5回应市场。Anthropic产品负责人Scott White表示:"我们向市场发布的产品数量以及由此产生的反馈循环让我感到无比兴奋"。

对于目标用户群体,White指出Opus 4.5的理想用户是专业软件开发人员和知识工作者,如金融分析师、咨询顾问和会计师,以及那些渴望推动创造力、构建新事物的人。

开发者可以通过API使用模型字符串"claude-opus-4-5-20251101"来调用Claude Opus 4.5,同时可享受提示缓存的90%成本节省和批处理的50%成本节省。该模型已在Amazon Bedrock、Google Cloud的Vertex AI和Microsoft Foundry等平台上线。

Anthropic强调,Opus 4.5是一款为"前所未有的用例"而生的高级模型,特别适合专业软件工程、复杂代理工作流和高风险企业任务。其混合推理能力允许在即时响应或扩展思考之间灵活切换,API用户可以精细调控模型在响应中投入的整体努力,在性能、延迟和成本之间取得平衡。

业界合作伙伴的反馈也印证了Opus 4.5的强大能力。Lovable表示该模型在其聊天模式中提供前沿推理能力,深度推理改变了规划方式,优秀的规划使代码生成更出色。Warp报告称在Terminal Bench测试中,Opus 4.5比Sonnet 4.5提升了15%,这在Planning Mode使用中尤为明显。金融建模公司Fundamental Research Labs联合创始人Nico Christie表示,在内部评估中准确率提高了20%,效率提升了15%,曾经看似遥不可及的复杂任务现在变得可实现。

Claude Opus 4.5的发布不仅代表着Anthropic技术实力的新突破,也预示着AI助手正在从简单的问答工具演变为能够独立完成复杂专业任务的智能系统。随着价格的大幅下降和能力的显著提升,AI技术的商业化应用有望进一步加速,为各行各业带来深刻变革。