GPT-5.4来袭:OpenAI的统一AI模型现可控制您的电脑并超越您的同事

2026-03-06
GPT-5.4
5 min

重磅:GPT-5.4 在 ChatGPT、API 和 Codex 上线

2026年3月5日(美国东部时间)星期四,OpenAI 正式发布了其迄今为止最强大、最高效的旗舰模型 GPT-5.4。此次发布同时在 ChatGPT、开发者 API 和 Codex 平台上线。OpenAI 首席执行官 Sam Altman 在 X(前身为 Twitter)上预告了此次发布,写道:“我认为人们会喜欢这个。”

新模型现已对 ChatGPT Plus、Team 和 Pro 订阅用户开放。企业版和教育版用户可以通过管理员设置启用早期访问。对于需要处理高度复杂任务并追求极致性能的用户,还有一个更强大的版本 GPT-5.4 Pro 可供选择。


新特性:统一的强大模型

GPT-5.4 代表了 OpenAI 模型阵容的一次重大整合。它将 GPT-5.3-Codex 行业领先的编码能力与增强的推理、代理工作流和专业生产力工具融为一体,全部集成在一个模型中。

主要升级包括:

  • 原生计算机操作能力:通用模型首次实现,GPT-5.4 在 Codex 和 API 中可以自主操作计算机、浏览网页和桌面应用程序,并执行复杂的多步工作流。
  • 100 万 Token 上下文窗口:GPT-5.4 支持高达 100 万 Token 的上下文,使代理能够在扩展会话中规划、执行和验证任务。
  • 工具搜索系统:新引入的工具搜索功能允许模型仅在需要时查找工具定义,从而减少 Token 使用量并提高大型工具生态系统中的响应速度。
  • 前置推理计划:在 ChatGPT 中,GPT-5.4 Thinking 版本可以在生成完整响应之前展示其推理的初步计划,让用户在过程中调整方向。
  • Token 效率:GPT-5.4 是 OpenAI 迄今为止最 Token 高效的推理模型,解决问题所需的 Token 量远少于 GPT-5.2,有助于抵消略高的每 Token 价格。

基准性能:打破纪录的成果

GPT-5.4 在多个专业评估框架中打破了性能基准:

  • GDPval:得分 83%,在真实世界任务中超越了 44 种职业的办公室工作人员。
  • APEX-Agents (Mercor):在该旨在测试 AI 在法律和金融领域性能的基准测试中排名第一。
  • OSWorld-Verified & WebArena Verified:在衡量 AI 系统与软件环境交互效率的计算机操作基准测试中创下新纪录。
  • 电子表格建模:在模拟投资银行分析师任务的内部基准测试中得分 87.3%,而 GPT-5.2 为 68.4%
  • 演示文稿生成:人类评估者在 68% 的情况下更喜欢 GPT-5.4 生成的演示文稿,而非 GPT-5.2 的输出。

幻觉减少和准确性提高

OpenAI 在此次发布中高度重视可靠性。据该公司称,GPT-5.4:

  • 与 GPT-5.2 相比,产生单个事实性错误的可能性降低了 33%
  • 整体响应中包含事实性错误的几率降低了 18%

一项针对思维链(CoT)推理的新安全评估发现,GPT-5.4 Thinking 版本出现欺骗的可能性较低,OpenAI 表示“该模型缺乏隐藏其推理的能力,而 CoT 监控仍然是一种有效的安全工具。”


企业和竞争格局影响

此次发布标志着 OpenAI 加大对企业市场的投入——这是一个 Anthropic 长期以来占据优势的领域。GPT-5.4 开箱即用的代理能力,结合其专业的文档、电子表格和演示文稿技能,使其直接与 Anthropic 的 Claude 在企业工作流领域展开竞争。

与 GPT-5.4 一同发布的还有 ChatGPT for Excel 插件,将 AI 直接引入微软普及的电子表格软件。此外,还宣布了用于 ChatGPT 的新应用集成和技能。

市场分析人士正密切关注。2026 年初,Anthropic 的 Cowork 插件发布引发了 SaaS 股票的广泛抛售。随着 GPT-5.4 的代理能力引发对企业软件未来新的疑问,可能会出现类似的反应。


模型可用性和旧版本迁移

  • GPT-5.4 Thinking 现已在 ChatGPT 上对 Plus、Team 和 Pro 用户上线,取代 GPT-5.2 Thinking
  • GPT-5.2 Thinking 将在“旧模型”部分保留三个月,之后将于 2026 年 6 月 5 日(美国东部时间)停用
  • OpenRouter 上的 API 定价每 100 万输入 Token 2.50 美元每 100 万输出 Token 20.00 美元,支持 100 万 Token 上下文窗口和 128K 最大输出。
  • 输入 Token 超过 272K 的提示在整个会话中将收取2 倍输入和 1.5 倍输出的费用

总结

GPT-5.4 是 OpenAI 近期最全面的模型发布——将前沿推理、编码、计算机操作自主性以及专业生产力整合到一个更高效的软件包中。凭借创纪录的基准分数、显著减少的幻觉以及原生的企业集成,它树立了新的标准,并加剧了全球领先 AI 实验室之间的竞争。