Google正式推出Gemini 3系列：AI推理能力躍升，首日整合搜尋引擎創里程碑

November 19, 2025

Google,Gemini3

7 min

摘要

Google於美東時間2025年11月18日正式發布Gemini 3系列AI模型，這是該公司迄今為止最智能的模型。Gemini 3 Pro在LMArena排行榜上以1501分的成績登頂，在19項基準測試中的19項均擊敗競爭對手。新模型在推理能力、多模態理解和程式碼生成方面實現重大突破，並引入生成式介面（Generative UI）等創新功能。同時，Google推出全新的Gemini Agent功能和Antigravity程式碼開發平台，進一步強化其在AI競賽中的地位。

核心性能突破

Gemini 3 Pro在業界公認的LMArena排行榜上獲得1501分的突破性成績，超越其前身Gemini 2.5 Pro的1451分。根據Google披露的數據，該模型在20項主要基準測試中的19項均取得最高分，展現出全面的技術優勢。

在學術測試方面，Gemini 3 Pro在「人類最後的考試」（Humanity's Last Exam）中達到37.5%的準確率；這項涵蓋超過100個學科的2500道難題測試中，該成績較OpenAI GPT-5.1的26.5%提升了約11個百分點。在博士級科學問題基準GPQA Diamond上，Gemini 3 Pro獲得91.9%的成績，超過此前GPT-5.1保持的87.6%紀錄。

在數學推理領域，該模型在MathArena Apex上創下23.4%的新紀錄。多模態推理能力方面，Gemini 3 Pro在MMMU-Pro測試中得分81%，在Video-MMMU測試中達到87.6%，確立了在視覺理解方面的領先地位。

Deep Think模式的超凡表現

Google同時宣布推出Gemini 3 Deep Think模式，這一專注於深度推理的版本將在未來幾週內向Google AI Ultra訂閱用戶（月費249.99美元）開放。Deep Think在「人類最後的考試」中達到41.0%的準確率，在GPQA Diamond上取得93.8%的成績。

最令人矚目的是，Gemini 3 Deep Think在ARC-AGI測試中（啟用程式碼執行）取得45.1%的前所未有成績，而Gemini 3 Pro也達到31.1%。相比之下，排名第二的GPT-5.1 Thinking（High）僅獲得17.6%，顯示出2至3倍的性能差距。ARC-AGI被認為是衡量AI通用智能和解決新穎問題能力的關鍵指標。

產品整合與可用性

從11月18日起，Gemini 3 Pro已在全球範圍內向所有用戶推出。用戶可在Gemini應用、AI Mode和AI Overviews中透過模型選擇器選擇「Thinking」模式來使用新模型。Google AI Plus、Pro和Ultra訂閱用戶將享有更高的使用限額。

開發者可透過Google AI Studio、Gemini API和Vertex AI存取Gemini 3 Pro。API定價為每百萬輸入token 2美元，每百萬輸出token 12美元（提示長度低於200,000 token），相比Gemini 2.5 Pro的定價有所上調。

生成式介面創新

Gemini 3引入「生成式介面」（Generative UI）概念，這是一種由模型即時生成的互動式介面。系統可根據使用者提示自動設計和客製化完整的使用者體驗，包括網頁、遊戲、工具和應用程式。

兩個實驗性功能已開始在Gemini應用中推出：Visual Layout可建立沉浸式的雜誌風格視圖，包含照片和模組；Dynamic View則為每個提示設計和編碼完全客製化的互動式回應。例如，向5歲兒童解釋微生物組與向成人解釋需要不同的內容和功能，系統會自動調整介面設計。

Gemini Agent賦能自動化任務

Gemini Agent是一項實驗性功能，率先向Google AI Ultra訂閱用戶開放。該功能可在Gemini應用內直接處理多步驟任務，利用Gemini 3的高階推理能力、即時網頁瀏覽和工具使用能力，包括Canvas、Deep Research、Gmail和Google Calendar。

使用者可以要求Gemini Agent「整理我的收件匣」，系統會將相關郵件分組，並提供快速封存和標記已讀的選項。另一個範例是：「使用我郵件中的詳細資訊，為下周旅行預訂一輛每天80美元以下的中型SUV。」Gemini將定位航班資訊，在預算範圍內研究租車選項並準備預訂。系統在執行購買或發送郵件等關鍵操作前會尋求使用者確認。

Antigravity開發平台

Google同時發布Google Antigravity，這是一個新的AI代理開發平台，允許開發者「在更高層次的任務導向級別」進行編碼。該整合開發環境結合了類似ChatGPT的提示視窗、命令列介面和瀏覽器視窗，可展示程式碼變更的實際效果。

Google產品副總裁Josh Woodward表示，Gemini 3是公司「有史以來最好的氛圍編碼模型」。代理可跨編輯器、終端機和瀏覽器工作，自主規劃和執行複雜的端到端軟體任務，同時驗證自己的程式碼。

市場定位與競爭態勢

Gemini 3的發布時間距離OpenAI發布GPT-5.1不到一週，距離Anthropic發布Claude Sonnet 4.5僅兩個月，凸顯了前沿AI模型開發的激烈競爭節奏。

Google執行長Sundar Pichai在部落格文章中寫道：「僅僅兩年時間，AI就從簡單的文字和影像閱讀發展到能夠『讀懂局勢』。」他宣布「從今天開始，我們將在Google的規模上部署Gemini。」

數據顯示，Gemini應用現有6.5億月活躍用戶，AI Overviews擁有20億月度用戶。相比之下，OpenAI在8月份表示ChatGPT達到7億週活躍用戶。超過70%的Google雲端客戶使用其AI服務，1300萬開發者已使用其生成式模型進行建構。

回應品質優化

根據Google DeepMind執行長Demis Hassabis的說法，由Gemini 3驅動的AI回應將「用真知灼見取代陳腔濫調和奉承——告訴你真正需要聽到的，而非你想聽的。」這一改變回應了業界對當前AI聊天機器人過於諂媚行為的批評。

Google強調，Gemini 3 Pro的回應「聰明、簡潔、直接」，並且在理解上下文和使用者意圖方面有顯著改進，因此「使用者只需更少的提示就能獲得所需內容」。

第三方整合

Gemini 3已獲得多家第三方開發工具支援，包括Cursor、GitHub、JetBrains、Manus和Cline等。Cline的AI負責人Nik Pash表示：「Cline正在使用Gemini 3在開發者的IDE中支援自主程式碼生成。Gemini 3 Pro能夠處理跨整個程式碼庫的複雜、長週期任務，在多檔案重構、除錯會話和功能實作中保持上下文。它比Gemini 2.5 Pro更有效地使用長上下文，並解決了困擾其他領先模型的問題。」

未來展望

Google表示將很快向Gemini 3系列發布更多模型，讓使用者能夠用AI做更多事情。該公司還將免費的Google AI Pro一年使用權擴展至美國大學生，確保他們能夠存取包括Gemini 3在內的最佳Google AI服務。

隨著Gemini 3的推出，Google在AI領域的全棧方法——從領先的基礎設施到世界級的研究和模型，再到覆蓋全球數十億人的產品——正在加速將先進能力推向市場。這場AI軍備競賽正以前所未有的速度推進，而Gemini 3的發布無疑是2025年AI領域最重大的事件之一。