GPT-5.4 登場:OpenAI 的統一AI模型現在可以控制您的電腦並超越您的同事

March 06, 2026
GPT-5.4
5 min

重磅消息:GPT-5.4 在 ChatGPT、API 和 Codex 全面推出

美國東部時間 2026 年 3 月 5 日(星期四),OpenAI 正式發布了其迄今為止功能最強大、代幣效率最高的尖端模型 GPT-5.4。此次發布同時在 ChatGPT、開發者 API 和 Codex 平台推出。OpenAI 執行長 Sam Altman 在 X(前身為 Twitter)上預告了此次發布,並寫道:「我認為人們會喜歡這個。」

新模型現已立即提供給 ChatGPT Plus、Team 和 Pro 訂閱用戶。企業和教育方案用戶可透過管理員設定啟用早期存取。對於需要處理高度複雜任務的用戶,也提供功能更強大的變體 GPT-5.4 Pro


新功能:統一的強大模型

GPT-5.4 代表了 OpenAI 模型陣容的一次重大整合。它將 GPT-5.3-Codex 領先業界的編碼能力,與增強的推理、代理工作流程和專業生產力工具融為一體,全部整合在一個模型中。

主要升級包括:

  • 原生電腦使用能力:通用模型首次在 GPT-5.4 的 Codex 和 API 中,能夠自主操作電腦、瀏覽網頁和桌面應用程式,並執行複雜的多步驟工作流程。
  • 100 萬個代幣的上下文視窗:GPT-5.4 最高支援 100 萬個代幣的上下文,使代理能夠在長時間的會話中規劃、執行和驗證任務。
  • 工具搜尋系統:新引入的工具搜尋功能允許模型僅在需要時查找工具定義,從而減少代幣使用量並提高大型工具生態系統中的響應速度。
  • 預先推理計劃:在 ChatGPT 中,GPT-5.4 的思考版本可以在生成完整回應之前,呈現其推理的初步計劃,讓用戶在中途調整方向。
  • 代幣效率:GPT-5.4 是 OpenAI 迄今為止代幣效率最高的推理模型,解決問題所需的代幣量遠少於 GPT-5.2,有助於抵銷略高的每代幣價格。

基準效能:打破紀錄的成果

GPT-5.4 在多個專業評估框架中打破了效能基準:

  • GDPval:得分 83%,在真實世界任務中,其表現優於 44 種職業的辦公室工作人員。
  • APEX-Agents (Mercor):在此項旨在測試 AI 在法律和金融領域效能的基準測試中,獲得了最高排名。
  • OSWorld-Verified & WebArena Verified:在衡量 AI 系統與軟體環境互動效率的電腦使用基準測試中創下新紀錄。
  • 試算表建模:在模擬投資銀行分析師任務的內部基準測試中得分 87.3%,而 GPT-5.2 為 68.4%
  • 簡報生成:人類評審員有 68% 的時間偏好 GPT-5.4 的簡報,而非 GPT-5.2 的輸出。

減少幻覺和提高準確性

OpenAI 在此次發布中高度重視可靠性。根據該公司稱,GPT-5.4:

  • 與 GPT-5.2 相比,產生單一事實性錯誤的可能性降低了 33%
  • 整體回應中包含事實性錯誤的可能性降低了 18%

一項針對思維鏈(CoT)推理的新安全評估發現,GPT-5.4 思考版本出現欺騙的可能性較低,OpenAI 表示「該模型缺乏隱藏其推理的能力,而 CoT 監控仍然是一種有效的安全工具。」


企業和競爭影響

此次發布標誌著 OpenAI 加大對企業市場的投入,而 Anthropic 在此領域一直佔有強勢地位。GPT-5.4 開箱即用的代理能力,結合其專業文件、試算表和簡報技能,使其直接與 Anthropic 的 Claude 在企業工作流程方面展開競爭。

與 GPT-5.4 一同推出的還有 ChatGPT for Excel 插件,將 AI 直接引入微軟普及的試算表軟體。此外,還宣布了用於 ChatGPT 內部的新應用程式整合和技能。

市場分析師正密切關注。早在 2026 年初,Anthropic 的 Cowork 插件發布就引發了 SaaS 股票的廣泛拋售。隨著 GPT-5.4 的代理能力對企業軟體的未來提出新的疑問,可能會出現類似的反應。


模型可用性和舊版遷移

  • GPT-5.4 Thinking 現已在 ChatGPT 中向 Plus、Team 和 Pro 用戶推出,取代了 GPT-5.2 Thinking
  • GPT-5.2 Thinking 將在「舊版模型」部分保留三個月,然後於 2026 年 6 月 5 日(美國東部時間)退役
  • OpenRouter 上的 API 定價每 100 萬個輸入代幣 2.50 美元每 100 萬個輸出代幣 20.00 美元,擁有 100 萬個上下文視窗和 128K 個最大輸出。
  • 輸入代幣超過 27 萬 2 千個的提示,將在整個會話中收取雙倍的輸入和 1.5 倍的輸出費用

總結

GPT-5.4 是 OpenAI 近期記憶中最全面的模型發布,將尖端推理、編碼、電腦使用自主性以及專業生產力整合到一個更高效的單一包裝中。憑藉創紀錄的基準分數、顯著減少的幻覺以及原生的企業整合,它樹立了新的標準,並加劇了全球領先 AI 實驗室之間的競爭。