GPT-5.4 登場：OpenAI 的統一AI模型現在可以控制您的電腦並超越您的同事

March 06, 2026

GPT-5.4

5 min

重磅消息：GPT-5.4 在 ChatGPT、API 和 Codex 全面推出

美國東部時間 2026 年 3 月 5 日（星期四），OpenAI 正式發布了其迄今為止功能最強大、代幣效率最高的尖端模型 GPT-5.4。此次發布同時在 ChatGPT、開發者 API 和 Codex 平台推出。OpenAI 執行長 Sam Altman 在 X（前身為 Twitter）上預告了此次發布，並寫道：「我認為人們會喜歡這個。」

新模型現已立即提供給 ChatGPT Plus、Team 和 Pro 訂閱用戶。企業和教育方案用戶可透過管理員設定啟用早期存取。對於需要處理高度複雜任務的用戶，也提供功能更強大的變體 GPT-5.4 Pro。

新功能：統一的強大模型

GPT-5.4 代表了 OpenAI 模型陣容的一次重大整合。它將 GPT-5.3-Codex 領先業界的編碼能力，與增強的推理、代理工作流程和專業生產力工具融為一體，全部整合在一個模型中。

主要升級包括：

原生電腦使用能力：通用模型首次在 GPT-5.4 的 Codex 和 API 中，能夠自主操作電腦、瀏覽網頁和桌面應用程式，並執行複雜的多步驟工作流程。
100 萬個代幣的上下文視窗：GPT-5.4 最高支援 100 萬個代幣的上下文，使代理能夠在長時間的會話中規劃、執行和驗證任務。
工具搜尋系統：新引入的工具搜尋功能允許模型僅在需要時查找工具定義，從而減少代幣使用量並提高大型工具生態系統中的響應速度。
預先推理計劃：在 ChatGPT 中，GPT-5.4 的思考版本可以在生成完整回應之前，呈現其推理的初步計劃，讓用戶在中途調整方向。
代幣效率：GPT-5.4 是 OpenAI 迄今為止代幣效率最高的推理模型，解決問題所需的代幣量遠少於 GPT-5.2，有助於抵銷略高的每代幣價格。

基準效能：打破紀錄的成果

GPT-5.4 在多個專業評估框架中打破了效能基準：

GDPval：得分 83%，在真實世界任務中，其表現優於 44 種職業的辦公室工作人員。
APEX-Agents (Mercor)：在此項旨在測試 AI 在法律和金融領域效能的基準測試中，獲得了最高排名。
OSWorld-Verified & WebArena Verified：在衡量 AI 系統與軟體環境互動效率的電腦使用基準測試中創下新紀錄。
試算表建模：在模擬投資銀行分析師任務的內部基準測試中得分 87.3%，而 GPT-5.2 為 68.4%。
簡報生成：人類評審員有 68% 的時間偏好 GPT-5.4 的簡報，而非 GPT-5.2 的輸出。

減少幻覺和提高準確性

OpenAI 在此次發布中高度重視可靠性。根據該公司稱，GPT-5.4：

與 GPT-5.2 相比，產生單一事實性錯誤的可能性降低了 33%。
整體回應中包含事實性錯誤的可能性降低了 18%。

一項針對思維鏈（CoT）推理的新安全評估發現，GPT-5.4 思考版本出現欺騙的可能性較低，OpenAI 表示「該模型缺乏隱藏其推理的能力，而 CoT 監控仍然是一種有效的安全工具。」

企業和競爭影響

此次發布標誌著 OpenAI 加大對企業市場的投入，而 Anthropic 在此領域一直佔有強勢地位。GPT-5.4 開箱即用的代理能力，結合其專業文件、試算表和簡報技能，使其直接與 Anthropic 的 Claude 在企業工作流程方面展開競爭。

與 GPT-5.4 一同推出的還有 ChatGPT for Excel 插件，將 AI 直接引入微軟普及的試算表軟體。此外，還宣布了用於 ChatGPT 內部的新應用程式整合和技能。

市場分析師正密切關注。早在 2026 年初，Anthropic 的 Cowork 插件發布就引發了 SaaS 股票的廣泛拋售。隨著 GPT-5.4 的代理能力對企業軟體的未來提出新的疑問，可能會出現類似的反應。

模型可用性和舊版遷移

GPT-5.4 Thinking 現已在 ChatGPT 中向 Plus、Team 和 Pro 用戶推出，取代了 GPT-5.2 Thinking。
GPT-5.2 Thinking 將在「舊版模型」部分保留三個月，然後於 2026 年 6 月 5 日（美國東部時間）退役。
OpenRouter 上的 API 定價為 每 100 萬個輸入代幣 2.50 美元，每 100 萬個輸出代幣 20.00 美元，擁有 100 萬個上下文視窗和 128K 個最大輸出。
輸入代幣超過 27 萬 2 千個的提示，將在整個會話中收取雙倍的輸入和 1.5 倍的輸出費用。

總結

GPT-5.4 是 OpenAI 近期記憶中最全面的模型發布，將尖端推理、編碼、電腦使用自主性以及專業生產力整合到一個更高效的單一包裝中。憑藉創紀錄的基準分數、顯著減少的幻覺以及原生的企業整合，它樹立了新的標準，並加劇了全球領先 AI 實驗室之間的競爭。