Anthropic推出Claude Sonnet 4.5:自主编程30小时,刷新AI代码能力上限

2025-10-04

AnthropicC

5 min

摘要

Anthropic于2025年9月29日发布了Claude Sonnet 4.5,这是该公司迄今为止最强大的编程AI模型。该模型在SWE-bench Verified基准测试中得分77.2%,在实际软件工程任务中超越了OpenAI和谷歌的同类产品。Claude Sonnet 4.5可以自主工作超过30小时,在复杂的多步骤任务中保持专注,而此前5月发布的Opus 4模型只能运行7小时。

技术性能突破

在OSWorld基准测试中,Claude Sonnet 4.5的得分达到61.4%,相比四个月前Claude Sonnet 4的42.2%有显著提升。OSWorld测试评估AI模型在真实计算机任务中的表现,包括网站导航、电子表格填充和桌面任务完成等能力。

Anthropic研究员David Hershey表示,在早期企业客户试验中,他观察到Claude Sonnet 4.5能够自主编程长达30小时,期间不仅构建应用程序,还能配置数据库服务、购买域名并执行SOC 2安全审计。

该模型在代码规划和系统设计方面表现出色,能做出更好的架构决策和代码组织,在安全工程方面也有改进,提供更强大的安全实践和漏洞检测能力。

定价与可用性

Claude Sonnet 4.5的API定价保持不变,为每百万输入token 3美元,每百万输出token 15美元,与前代Claude Sonnet 4价格相同。这一定价策略相比竞争对手GPT-5(每百万输入token 1.25美元,输出token 10美元)仍然偏高,但Anthropic试图通过性能优势来证明其溢价合理性。

该模型现已在Claude.ai网页界面、iOS和Android应用、Claude API、Amazon Bedrock和Google Cloud的Vertex AI等平台上线,开发者可通过claude-sonnet-4-5模型字符串调用。GitHub Copilot也已集成Claude Sonnet 4.5,面向Copilot Pro、Pro+、Business和Enterprise用户开放。

产品生态更新

Anthropic同步发布了多项产品升级,包括Claude Code中备受期待的检查点功能,允许用户保存进度并随时回滚到之前的状态;全新的终端界面;以及原生VS Code扩展。

Claude应用现在支持直接在对话中执行代码和创建文件,包括电子表格、幻灯片和文档。Anthropic还推出了Claude Agent SDK,使用与Claude Code相同的基础设施,让开发者能够构建自己的AI代理。

公司还为Max订阅用户推出了为期5天的研究预览项目"Imagine with Claude",展示AI模型实时生成软件的能力,无需预先确定功能或预编写代码。

行业反响与企业应用

Cursor CEO Michael Truell表示,Claude Sonnet 4.5在长期任务上表现出色,这也是许多使用Cursor的开发者选择Claude解决复杂问题的原因。GitHub Copilot团队的初步评估显示,该模型在多步推理和代码理解方面有显著改进,使Copilot的代理体验能够更好地处理跨代码库的复杂任务。

在企业应用方面,安全组织HackerOne报告称,使用Claude Sonnet 4.5后,漏洞响应时间减少了44%。挪威央行投资管理公司等金融机构也在使用该模型进行投资级财务分析,Netflix和GitHub的开发人员则用其处理复杂的代码库任务。

安全性提升

Claude Sonnet 4.5在AI Safety Level 3(ASL-3)保护措施下发布,包括旨在检测潜在危险输入和输出的分类器,特别是与化学、生物、放射性和核武器相关的内容。Anthropic首席产品官Mike Krieger称这是"过去一年到一年半中安全性最大的提升"。

Anthropic表示,这是该公司发布的最对齐的前沿模型,在减少阿谀奉承、欺骗、权力追求和鼓励妄想思维等令人担忧的行为方面取得了实质性进展。该模型对提示注入攻击的抵抗力也有所增强。

市场竞争态势

Claude Sonnet 4.5的发布距离Anthropic上一款模型Claude Opus 4.1仅不到两个月,这体现了AI行业快节奏的创新竞争。该模型在OpenAI年度开发者大会前几天发布,而微软上周刚将Claude模型添加到Copilot 365中。

在过去一年中,Anthropic的AI模型因在软件工程任务上的强劲表现,已成为开发者和企业的首选。据报道,苹果和Meta在内部使用Claude AI模型,Anthropic通过向Cursor、Windsurf和Replit等AI编程应用销售API访问权获得了可观的业务收入。

Anthropic表示,Claude Code现在产生超过5亿美元的运营收入,过去三个月使用量增长超过10倍。

未来展望

Anthropic首席科学家Jared Kaplan透露,公司计划在年底前还会有一到两次模型发布,其中"很可能包括Opus"新版本。Krieger表示,Claude Sonnet 4.5将成为用户的默认选择,Anthropic推荐"基本上所有用例"都使用这个模型。

然而,业界观察者指出,这个领域发展如此之快,随着传闻中Gemini 3的即将到来,Claude Sonnet 4.5能保持"最佳编程模型"称号多久尚不确定。