Google正式推出Gemini 3系列:AI推理能力躍升,首日整合搜尋引擎創里程碑

November 19, 2025
Google,Gemini3
7 min

摘要

Google於美東時間2025年11月18日正式發布Gemini 3系列AI模型,這是該公司迄今為止最智能的模型。Gemini 3 Pro在LMArena排行榜上以1501分的成績登頂,在19項基準測試中的19項均擊敗競爭對手。新模型在推理能力、多模態理解和程式碼生成方面實現重大突破,並引入生成式介面(Generative UI)等創新功能。同時,Google推出全新的Gemini Agent功能和Antigravity程式碼開發平台,進一步強化其在AI競賽中的地位。

核心性能突破

Gemini 3 Pro在業界公認的LMArena排行榜上獲得1501分的突破性成績,超越其前身Gemini 2.5 Pro的1451分。根據Google披露的數據,該模型在20項主要基準測試中的19項均取得最高分,展現出全面的技術優勢。

在學術測試方面,Gemini 3 Pro在「人類最後的考試」(Humanity's Last Exam)中達到37.5%的準確率;這項涵蓋超過100個學科的2500道難題測試中,該成績較OpenAI GPT-5.1的26.5%提升了約11個百分點。在博士級科學問題基準GPQA Diamond上,Gemini 3 Pro獲得91.9%的成績,超過此前GPT-5.1保持的87.6%紀錄。

在數學推理領域,該模型在MathArena Apex上創下23.4%的新紀錄。多模態推理能力方面,Gemini 3 Pro在MMMU-Pro測試中得分81%,在Video-MMMU測試中達到87.6%,確立了在視覺理解方面的領先地位。

Deep Think模式的超凡表現

Google同時宣布推出Gemini 3 Deep Think模式,這一專注於深度推理的版本將在未來幾週內向Google AI Ultra訂閱用戶(月費249.99美元)開放。Deep Think在「人類最後的考試」中達到41.0%的準確率,在GPQA Diamond上取得93.8%的成績。

最令人矚目的是,Gemini 3 Deep Think在ARC-AGI測試中(啟用程式碼執行)取得45.1%的前所未有成績,而Gemini 3 Pro也達到31.1%。相比之下,排名第二的GPT-5.1 Thinking(High)僅獲得17.6%,顯示出2至3倍的性能差距。ARC-AGI被認為是衡量AI通用智能和解決新穎問題能力的關鍵指標。

產品整合與可用性

從11月18日起,Gemini 3 Pro已在全球範圍內向所有用戶推出。用戶可在Gemini應用、AI Mode和AI Overviews中透過模型選擇器選擇「Thinking」模式來使用新模型。Google AI Plus、Pro和Ultra訂閱用戶將享有更高的使用限額。

開發者可透過Google AI Studio、Gemini API和Vertex AI存取Gemini 3 Pro。API定價為每百萬輸入token 2美元,每百萬輸出token 12美元(提示長度低於200,000 token),相比Gemini 2.5 Pro的定價有所上調。

生成式介面創新

Gemini 3引入「生成式介面」(Generative UI)概念,這是一種由模型即時生成的互動式介面。系統可根據使用者提示自動設計和客製化完整的使用者體驗,包括網頁、遊戲、工具和應用程式。

兩個實驗性功能已開始在Gemini應用中推出:Visual Layout可建立沉浸式的雜誌風格視圖,包含照片和模組;Dynamic View則為每個提示設計和編碼完全客製化的互動式回應。例如,向5歲兒童解釋微生物組與向成人解釋需要不同的內容和功能,系統會自動調整介面設計。

Gemini Agent賦能自動化任務

Gemini Agent是一項實驗性功能,率先向Google AI Ultra訂閱用戶開放。該功能可在Gemini應用內直接處理多步驟任務,利用Gemini 3的高階推理能力、即時網頁瀏覽和工具使用能力,包括Canvas、Deep Research、Gmail和Google Calendar。

使用者可以要求Gemini Agent「整理我的收件匣」,系統會將相關郵件分組,並提供快速封存和標記已讀的選項。另一個範例是:「使用我郵件中的詳細資訊,為下周旅行預訂一輛每天80美元以下的中型SUV。」Gemini將定位航班資訊,在預算範圍內研究租車選項並準備預訂。系統在執行購買或發送郵件等關鍵操作前會尋求使用者確認。

Antigravity開發平台

Google同時發布Google Antigravity,這是一個新的AI代理開發平台,允許開發者「在更高層次的任務導向級別」進行編碼。該整合開發環境結合了類似ChatGPT的提示視窗、命令列介面和瀏覽器視窗,可展示程式碼變更的實際效果。

Google產品副總裁Josh Woodward表示,Gemini 3是公司「有史以來最好的氛圍編碼模型」。代理可跨編輯器、終端機和瀏覽器工作,自主規劃和執行複雜的端到端軟體任務,同時驗證自己的程式碼。

市場定位與競爭態勢

Gemini 3的發布時間距離OpenAI發布GPT-5.1不到一週,距離Anthropic發布Claude Sonnet 4.5僅兩個月,凸顯了前沿AI模型開發的激烈競爭節奏。

Google執行長Sundar Pichai在部落格文章中寫道:「僅僅兩年時間,AI就從簡單的文字和影像閱讀發展到能夠『讀懂局勢』。」他宣布「從今天開始,我們將在Google的規模上部署Gemini。」

數據顯示,Gemini應用現有6.5億月活躍用戶,AI Overviews擁有20億月度用戶。相比之下,OpenAI在8月份表示ChatGPT達到7億週活躍用戶。超過70%的Google雲端客戶使用其AI服務,1300萬開發者已使用其生成式模型進行建構。

回應品質優化

根據Google DeepMind執行長Demis Hassabis的說法,由Gemini 3驅動的AI回應將「用真知灼見取代陳腔濫調和奉承——告訴你真正需要聽到的,而非你想聽的。」這一改變回應了業界對當前AI聊天機器人過於諂媚行為的批評。

Google強調,Gemini 3 Pro的回應「聰明、簡潔、直接」,並且在理解上下文和使用者意圖方面有顯著改進,因此「使用者只需更少的提示就能獲得所需內容」。

第三方整合

Gemini 3已獲得多家第三方開發工具支援,包括Cursor、GitHub、JetBrains、Manus和Cline等。Cline的AI負責人Nik Pash表示:「Cline正在使用Gemini 3在開發者的IDE中支援自主程式碼生成。Gemini 3 Pro能夠處理跨整個程式碼庫的複雜、長週期任務,在多檔案重構、除錯會話和功能實作中保持上下文。它比Gemini 2.5 Pro更有效地使用長上下文,並解決了困擾其他領先模型的問題。」

未來展望

Google表示將很快向Gemini 3系列發布更多模型,讓使用者能夠用AI做更多事情。該公司還將免費的Google AI Pro一年使用權擴展至美國大學生,確保他們能夠存取包括Gemini 3在內的最佳Google AI服務。

隨著Gemini 3的推出,Google在AI領域的全棧方法——從領先的基礎設施到世界級的研究和模型,再到覆蓋全球數十億人的產品——正在加速將先進能力推向市場。這場AI軍備競賽正以前所未有的速度推進,而Gemini 3的發布無疑是2025年AI領域最重大的事件之一。