Google正式推出Gemini 3系列:AI推理能力跃升,首日集成搜索引擎创里程碑

2025-11-19

Google,Gemini3

7 min

摘要

Google于美东时间2025年11月18日正式发布Gemini 3系列AI模型,这是该公司迄今为止最智能的模型。Gemini 3 Pro在LMArena排行榜上以1501分的成绩登顶,在19项基准测试中的19项均击败竞争对手。新模型在推理能力、多模态理解和代码生成方面实现重大突破,并引入生成式界面(Generative UI)等创新功能。同时,Google推出全新的Gemini Agent功能和Antigravity代码开发平台,进一步强化其在AI竞赛中的地位。

核心性能突破

Gemini 3 Pro在业界公认的LMArena排行榜上获得1501分的突破性成绩,超越其前身Gemini 2.5 Pro的1451分。根据Google披露的数据,该模型在20项主要基准测试中的19项均取得最高分,展现出全面的技术优势。

在学术测试方面,Gemini 3 Pro在"人类最后的考试"(Humanity's Last Exam)中达到37.5%的准确率,这一涵盖超过100个学科的2500道难题测试中,该成绩较OpenAI GPT-5.1的26.5%提升了约11个百分点。在博士级科学问题基准GPQA Diamond上,Gemini 3 Pro获得91.9%的成绩,超过此前GPT-5.1保持的87.6%纪录。

在数学推理领域,该模型在MathArena Apex上创下23.4%的新纪录。多模态推理能力方面,Gemini 3 Pro在MMMU-Pro测试中得分81%,在Video-MMMU测试中达到87.6%,确立了在视觉理解方面的领先地位。

Deep Think模式的超凡表现

Google同时宣布推出Gemini 3 Deep Think模式,这一专注于深度推理的版本将在未来几周内向Google AI Ultra订阅用户(月费249.99美元)开放。Deep Think在"人类最后的考试"中达到41.0%的准确率,在GPQA Diamond上取得93.8%的成绩。

最令人瞩目的是,Gemini 3 Deep Think在ARC-AGI测试中(启用代码执行)取得45.1%的前所未有成绩,而Gemini 3 Pro也达到31.1%。相比之下,排名第二的GPT-5.1 Thinking(High)仅获得17.6%,显示出2-3倍的性能差距。ARC-AGI被认为是衡量AI通用智能和解决新颖问题能力的关键指标。

产品整合与可用性

从11月18日起,Gemini 3 Pro已在全球范围内向所有用户推出。用户可在Gemini应用、AI Mode和AI Overviews中通过模型选择器选择"Thinking"模式来使用新模型。Google AI Plus、Pro和Ultra订阅用户将享有更高的使用限额。

开发者可通过Google AI Studio、Gemini API和Vertex AI访问Gemini 3 Pro。API定价为每百万输入令牌2美元,每百万输出令牌12美元(200,000令牌以下的提示),相比Gemini 2.5 Pro的定价有所上调。

生成式界面创新

Gemini 3引入"生成式界面"(Generative UI)概念,这是一种由模型实时生成的交互式界面。系统可以根据用户提示自动设计和定制完整的用户体验,包括网页、游戏、工具和应用程序。

两个实验性功能已开始在Gemini应用中推出:Visual Layout创建沉浸式杂志风格视图,包含照片和模块;Dynamic View则为每个提示设计和编码完全定制的交互式响应。例如,向5岁儿童解释微生物组与向成人解释需要不同的内容和功能,系统会自动调整界面设计。

Gemini Agent赋能自动化任务

Gemini Agent是一项实验性功能,率先向Google AI Ultra订阅用户开放。该功能可在Gemini应用内直接处理多步骤任务,利用Gemini 3的高级推理能力、实时网页浏览和工具使用能力,包括Canvas、Deep Research、Gmail和Google Calendar。

用户可以要求Gemini Agent"整理我的收件箱",系统会将相关邮件分组,并提供快速存档和标记已读的选项。另一个示例是:"使用我邮件中的详细信息,为下周旅行预订一辆每天80美元以下的中型SUV。"Gemini将定位航班信息,在预算范围内研究租车选项并准备预订。系统在执行购买或发送邮件等关键操作前会寻求用户确认。

Antigravity开发平台

Google同时发布Google Antigravity,这是一个新的AI代理开发平台,允许开发者"在更高的任务导向级别"进行编码。该集成开发环境结合了类似ChatGPT的提示窗口、命令行界面和浏览器窗口,可以展示代码更改的实际效果。

Google产品副总裁Josh Woodward表示,Gemini 3是公司"有史以来最好的氛围编码模型"。代理可以跨编辑器、终端和浏览器工作,自主规划和执行复杂的端到端软件任务,同时验证自己的代码。

市场定位与竞争态势

Gemini 3的发布时间距离OpenAI发布GPT-5.1不到一周,距离Anthropic发布Claude Sonnet 4.5仅两个月,凸显了前沿AI模型开发的激烈竞争节奏。

Google CEO Sundar Pichai在博客文章中写道:"仅仅两年时间,AI就从简单的文本和图像阅读发展到能够'读懂局势'。"他宣布"从今天开始,我们将在Google的规模上部署Gemini。"

数据显示,Gemini应用现有6.5亿月活跃用户,AI Overviews拥有20亿月度用户。相比之下,OpenAI在8月份表示ChatGPT达到7亿周活跃用户。超过70%的Google云客户使用其AI服务,1300万开发者已使用其生成式模型进行构建。

响应质量优化

根据Google DeepMind首席执行官Demis Hassabis的说法,由Gemini 3驱动的AI响应将"用真知灼见取代陈词滥调和奉承——告诉你需要听到的,而不是你想听到的。"这一改变回应了业界对当前AI聊天机器人过于谄媚行为的批评。

Google强调,Gemini 3 Pro的响应"聪明、简洁、直接",并且在理解上下文和用户意图方面有显著改进,因此"用户只需更少的提示就能获得所需内容"。

第三方集成

Gemini 3已获得多家第三方开发工具支持,包括Cursor、GitHub、JetBrains、Manus和Cline等。Cline的AI负责人Nik Pash表示:"Cline正在使用Gemini 3在开发者的IDE中支持自主代码生成。Gemini 3 Pro能够处理跨整个代码库的复杂、长周期任务,在多文件重构、调试会话和功能实现中保持上下文。它比Gemini 2.5 Pro更有效地使用长上下文,并解决了困扰其他领先模型的问题。"

未来展望

Google表示将很快向Gemini 3系列发布更多模型,让用户能够用AI做更多事情。该公司还将免费的Google AI Pro一年使用权扩展至美国大学生,确保他们能够访问包括Gemini 3在内的最佳Google AI服务。

随着Gemini 3的推出,Google在AI领域的全栈方法——从领先的基础设施到世界级的研究和模型,再到覆盖全球数十亿人的产品——正在加速将先进能力推向市场。这场AI军备竞赛正在以前所未有的速度推进,而Gemini 3的发布无疑是2025年AI领域最重大的事件之一。