OpenAI 在激烈 AI 竞争中发布 GPT-5.2:增强推理能力赋能专业工作流程
新闻摘要
OpenAI 推出了 GPT-5.2,并将其描述为专为专业知识工作优化的最先进模型。此次发布正值人工智能领域竞争加剧之际,此前有报道称,首席执行官 Sam Altman 发布了“红色代码”指令,以加速开发,以应对 Google 的 Gemini 3。
新模型家族引入了三个不同的层级:用于日常任务的 GPT-5.2 Instant、用于复杂推理的 GPT-5.2 Thinking 和用于最高风险专业应用的 GPT-5.2 Pro。OpenAI 声称,在 GDPval 基准测试中,该模型在 44 个职业的特定知识工作任务上超越了行业专业人士。
该版本已开始向 ChatGPT 付费订阅用户推出,包括 Plus、Pro、Go、Business 和 Enterprise 计划,并于同日开始集成 Microsoft 365 Copilot。开发者通过 OpenAI 的 API 平台获得了即时访问权限。
主要改进包括增强的数万个 token 的长上下文理解能力、用于解释复杂图表和屏幕截图的卓越视觉能力,以及与早期版本相比减少的幻觉。在 FrontierMath 基准测试中,GPT-5.2 Thinking 解决了 40.3% 的 Tier 1-3 问题,高于 GPT-5.1 的 31.0%,而 GPT-5.2 Pro 成为第一个在 ARC-AGI-1 通用推理基准测试中超过 90% 的模型。
快速部署时间表引发了关于开发速度与安全考虑的讨论。OpenAI 高管坚称该模型已开发“数月”,并非仅仅是应对竞争压力的反应措施。公司官员强调了安全方面的改进,包括更好地处理自残指标、心理健康问题和情感依赖。
然而,先进的功能也伴随着高昂的成本。GPT-5.2 Pro 的 API 定价达到每百万输入 token 21 美元,每百万输出 token 168 美元,使其成为行业中最昂贵的人工智能服务之一。相比之下,GPT-5.2 Thinking 的成本为每百万输入 token 1.75 美元,每百万输出 token 14 美元。
ChatGPT Enterprise 用户已经报告了显著的生产力提升,普通用户每天节省 40-60 分钟,重度用户每周报告节省超过 10 小时。包括 Notion、Box、Shopify、Harvey 和 Zoom 在内的主要科技公司已确认其测试性能有所改善。
该模型增强的编码能力在 SWE-Bench Pro 评估中表现出特别的优势,尽管 Anthropic 的 Claude Opus 4.5 在替代的 SWE-Bench Verified 测试中保持更高的分数。OpenAI 为其首选基准进行了辩护,称其更不易受污染且更具行业相关性。
发布后,平台集成迅速扩展。GitHub Copilot 向 Pro、Pro+、Business 和 Enterprise 订阅用户提供了 GPT-5.2,重点关注长上下文任务和前端 UI 生成。Azure 数据中心和 NVIDIA GPU,包括最新的 H100、H200 和 GB200-NVL72 处理器,提供了支持模型开发的计算基础设施。
展望未来,OpenAI 表示计划在未来几周内发布一个针对 Codex 优化的版本。该公司预计在 2026 年第一季度推出其“成人模式”功能,尽管仍在努力准确识别青少年用户而不会错误地将成年人归类。
值得注意的是,此次发布中没有提及图像生成能力的改进,高管们表示,关于 DALL-E 3 或原生图像创建功能的增强,“今天没有什么可宣布的,但未来会有更多”。
此次发布凸显了人工智能开发速度的加快,领先公司竞相在生成式人工智能市场中确立主导地位。随着 Google、Anthropic 和 OpenAI 在数周内相继发布模型更新,竞争格局继续重塑专业和消费者应用中人工智能能力的预期。
OpenAI 坚称,GPT-5.1 将作为旧版模型继续向付费用户提供三个月,之后将停用,而 GPT-5.1、GPT-5 和 GPT-4.1 的 API 访问将继续提供,任何弃用计划都会提前充分通知。