OpenAI 在激烈 AI 竞争中发布 GPT-5.2：增强推理能力赋能专业工作流程

2025-12-13

GPT-5.2

4 min

新闻摘要

OpenAI 推出了 GPT-5.2，并将其描述为专为专业知识工作优化的最先进模型。此次发布正值人工智能领域竞争加剧之际，此前有报道称，首席执行官 Sam Altman 发布了“红色代码”指令，以加速开发，以应对 Google 的 Gemini 3。

新模型家族引入了三个不同的层级：用于日常任务的 GPT-5.2 Instant、用于复杂推理的 GPT-5.2 Thinking 和用于最高风险专业应用的 GPT-5.2 Pro。OpenAI 声称，在 GDPval 基准测试中，该模型在 44 个职业的特定知识工作任务上超越了行业专业人士。

该版本已开始向 ChatGPT 付费订阅用户推出，包括 Plus、Pro、Go、Business 和 Enterprise 计划，并于同日开始集成 Microsoft 365 Copilot。开发者通过 OpenAI 的 API 平台获得了即时访问权限。

主要改进包括增强的数万个 token 的长上下文理解能力、用于解释复杂图表和屏幕截图的卓越视觉能力，以及与早期版本相比减少的幻觉。在 FrontierMath 基准测试中，GPT-5.2 Thinking 解决了 40.3% 的 Tier 1-3 问题，高于 GPT-5.1 的 31.0%，而 GPT-5.2 Pro 成为第一个在 ARC-AGI-1 通用推理基准测试中超过 90% 的模型。

快速部署时间表引发了关于开发速度与安全考虑的讨论。OpenAI 高管坚称该模型已开发“数月”，并非仅仅是应对竞争压力的反应措施。公司官员强调了安全方面的改进，包括更好地处理自残指标、心理健康问题和情感依赖。

然而，先进的功能也伴随着高昂的成本。GPT-5.2 Pro 的 API 定价达到每百万输入 token 21 美元，每百万输出 token 168 美元，使其成为行业中最昂贵的人工智能服务之一。相比之下，GPT-5.2 Thinking 的成本为每百万输入 token 1.75 美元，每百万输出 token 14 美元。

ChatGPT Enterprise 用户已经报告了显著的生产力提升，普通用户每天节省 40-60 分钟，重度用户每周报告节省超过 10 小时。包括 Notion、Box、Shopify、Harvey 和 Zoom 在内的主要科技公司已确认其测试性能有所改善。

该模型增强的编码能力在 SWE-Bench Pro 评估中表现出特别的优势，尽管 Anthropic 的 Claude Opus 4.5 在替代的 SWE-Bench Verified 测试中保持更高的分数。OpenAI 为其首选基准进行了辩护，称其更不易受污染且更具行业相关性。

发布后，平台集成迅速扩展。GitHub Copilot 向 Pro、Pro+、Business 和 Enterprise 订阅用户提供了 GPT-5.2，重点关注长上下文任务和前端 UI 生成。Azure 数据中心和 NVIDIA GPU，包括最新的 H100、H200 和 GB200-NVL72 处理器，提供了支持模型开发的计算基础设施。

展望未来，OpenAI 表示计划在未来几周内发布一个针对 Codex 优化的版本。该公司预计在 2026 年第一季度推出其“成人模式”功能，尽管仍在努力准确识别青少年用户而不会错误地将成年人归类。

值得注意的是，此次发布中没有提及图像生成能力的改进，高管们表示，关于 DALL-E 3 或原生图像创建功能的增强，“今天没有什么可宣布的，但未来会有更多”。

此次发布凸显了人工智能开发速度的加快，领先公司竞相在生成式人工智能市场中确立主导地位。随着 Google、Anthropic 和 OpenAI 在数周内相继发布模型更新，竞争格局继续重塑专业和消费者应用中人工智能能力的预期。

OpenAI 坚称，GPT-5.1 将作为旧版模型继续向付费用户提供三个月，之后将停用，而 GPT-5.1、GPT-5 和 GPT-4.1 的 API 访问将继续提供，任何弃用计划都会提前充分通知。