OpenAI 在激烈 AI 競爭中發布 GPT-5.2:增強推理能力,助力專業工作流程

December 13, 2025
GPT-5.2
4 min

新聞摘要

OpenAI 推出了 GPT-5.2,並將其描述為專為專業知識工作優化的最先進模型。此次發布正值人工智能領域競爭加劇之際,此前有報導稱,首席執行官 Sam Altman 發布了「紅色代碼」指令,以加速開發,以應對 Google 的 Gemini 3。

新模型家族引入了三個不同的層級:用於日常任務的 GPT-5.2 Instant、用於複雜推理的 GPT-5.2 Thinking 和用於最高風險專業應用的 GPT-5.2 Pro。OpenAI 聲稱,在 GDPval 基準測試中,該模型在 44 個職業的特定知識工作任務上超越了行業專業人士。

該版本已開始向 ChatGPT 付費訂閱用戶推出,包括 Plus、Pro、Go、Business 和 Enterprise 計劃,並於同日開始集成 Microsoft 365 Copilot。開發者通過 OpenAI 的 API 平台獲得了即時訪問權限。

主要改進包括增強的數萬個 token 的長上下文理解能力、用於解釋複雜圖表和屏幕截圖的卓越視覺能力,以及與早期版本相比減少的幻覺。在 FrontierMath 基準測試中,GPT-5.2 Thinking 解決了 40.3% 的 Tier 1-3 問題,高於 GPT-5.1 的 31.0%,而 GPT-5.2 Pro 成為第一個在 ARC-AGI-1 通用推理基準測試中超過 90% 的模型。

快速部署時間表引發了關於開發速度與安全考慮的討論。OpenAI 高管堅稱該模型已開發「數月」,並非僅僅是應對競爭壓力的反應措施。公司官員強調了安全方面的改進,包括更好地處理自殘指標、心理健康問題和情感依賴。

然而,先進的功能也伴隨著高昂的成本。GPT-5.2 Pro 的 API 定價達到每百萬輸入 token 21 美元,每百萬輸出 token 168 美元,使其成為行業中最昂貴的人工智能服務之一。相比之下,GPT-5.2 Thinking 的成本為每百萬輸入 token 1.75 美元,每百萬輸出 token 14 美元。

ChatGPT Enterprise 用戶已經報告了顯著的生產力提升,普通用戶每天節省 40-60 分鐘,重度用戶每週報告節省超過 10 小時。包括 Notion、Box、Shopify、Harvey 和 Zoom 在內的主要科技公司已確認其測試性能有所改善。

該模型增強的編碼能力在 SWE-Bench Pro 評估中表現出特別的優勢,儘管 Anthropic 的 Claude Opus 4.5 在替代的 SWE-Bench Verified 測試中保持更高的分數。OpenAI 為其首選基準進行了辯護,稱其更不易受污染且更具行業相關性。

發布後,平台集成迅速擴展。GitHub Copilot 向 Pro、Pro+、Business 和 Enterprise 訂閱用戶提供了 GPT-5.2,重點關注長上下文任務和前端 UI 生成。Azure 數據中心和 NVIDIA GPU,包括最新的 H100、H200 和 GB200-NVL72 處理器,提供了支持模型開發的計算基礎設施。

展望未來,OpenAI 表示計劃在未來幾週內發布一個針對 Codex 優化的版本。該公司預計在 2026 年第一季度推出其「成人模式」功能,儘管仍在努力準確識別青少年用戶而不會錯誤地將成年人歸類。

值得注意的是,此次發布中沒有提及圖像生成能力的改進,高管們表示,關於 DALL-E 3 或原生圖像創建功能的增強,「今天沒有什麼可宣布的,但未來會有更多」。

此次發布凸顯了人工智能開發速度的加快,領先公司競相在生成式人工智能市場中確立主導地位。隨著 Google、Anthropic 和 OpenAI 在數週內相繼發布模型更新,競爭格局繼續重塑專業和消費者應用中人工智能能力的預期。

OpenAI 堅稱,GPT-5.1 將作為舊版模型繼續向付費用戶提供三個月,之後將停用,而 GPT-5.1、GPT-5 和 GPT-4.1 的 API 訪問將繼續提供,任何棄用計劃都會提前充分通知。