谷歌揭曉神秘Nano Banana真身:Gemini 2.5圖像AI模型引領行業新標準

August 28, 2025
GoogleBlog
5 min

新聞摘要

Google 正式確認推出代號為「Nano Banana」的新一代 AI 圖像生成與編輯模型,官方名稱為 Gemini 2.5 Flash Image。該模型於 8 月 26 日在 Gemini 應用程式中正式發布,此前已在匿名測試平台 LMArena 上引起轟動,被評為全球頂級圖像編輯模型。

神秘代號引發猜測,Google 正式「認領」

在過去幾週內,一個名為「Nano Banana」的 AI 圖像編輯模型在社群媒體上掀起熱潮。該模型首先出現在眾包評估平台 LMArena 上,以匿名方式與其他 AI 模型進行「對戰」,用戶可以輸入提示詞讓兩個匿名模型競爭生成最佳結果。令人驚訝的是,這個神秘模型在圖像編輯排行榜上持續擊敗其他競爭對手,引發了廣泛關注和猜測。

Google DeepMind 的執行長德米斯·哈薩比斯 (Demis Hassabis) 甚至在 Twitter 上發布了一張顯微鏡下「奇怪物體」的圖片,暗示著這個香蕉相關的項目。8 月 26 日,Google 正式承認 Nano Banana 確實是其內部項目,並將其整合到 Gemini 應用程式中。

技術突破:95%以上角色一致性保持

新模型的核心優勢在於其出色的角色一致性維護能力。用戶可以將同一個角色放置在不同環境中,從多個角度展示單一產品,或生成一致的品牌資產,同時完美保持主體特徵。據社群報告顯示,Nano Banana 能夠實現 95% 以上的身份保持率,首次嘗試成功率約為 90%,遠超其他 AI 模型的表現。

Google 在部落格中解釋:「我們知道,當編輯您自己或熟悉的人的照片時,細微的缺陷也很重要——『接近但不完全相同』的描繪會讓人感覺不對。這就是為什麼我們的最新更新旨在讓您的朋友、家人甚至寵物的照片始終看起來像他們自己,無論您是在嘗試 60 年代的蜂窩髮型還是給您的吉娃娃穿上芭蕾舞裙。」

功能強大,應用廣泛

該模型支援多種高級功能,包括將多張圖片混合成單一圖像、保持角色一致性進行豐富的故事敘述、使用自然語言進行有針對性的變換,以及利用 Gemini 的世界知識來生成和編輯圖像。用戶可以更改背景、編輯照片中的單個細節、將自己置於任何想像的照片中、以任何想要的風格呈現,甚至可以提取圖像的設計風格並應用到其他物體上。

該模型已在多個產業展現出實用價值:電商平台用它來擴展產品圖像的顏色變體和風格,據報告轉換率提升了 34%;內容團隊能夠在一小時內建構完整的行銷活動,原本需要數天的工作現在大幅縮短;遊戲工作室用它為 NPC 生成數千個角色肖像;建築公司生成室內模型圖,足以跳過兩輪客戶修改。

定價策略與安全保障

Gemini 2.5 Flash Image 透過 Gemini API、Google AI Studio 和 Vertex AI 向開發者和企業用戶提供服務,定價為每 100 萬輸出 tokens 30 美元,每張圖像相當於 1290 個輸出 tokens(約 0.039 美元/張圖片)。

對於普通用戶,免費 Gemini 用戶每天可以創建多達 100 次圖像編輯,付費用戶的編輯次數可增加十倍。為了解決深度偽造圖像的問題,所有透過 Gemini 2.5 Flash Image 創建或編輯的圖像都將包含不可見的 SynthID 數位浮水印,以及可見的標識,以便用戶能夠識別 AI 生成或編輯的內容。

產業影響與未來展望

Google 產品負責人妮可·布里希托娃 (Nicole Brichtova) 在接受採訪時表示:「我們真正在推動視覺品質的進步,以及模型遵循指令的能力。我們希望給用戶創意控制權,讓他們能從模型中得到想要的結果,但這並不意味著什麼都可以。」

Nano Banana AI 的發布被認為是圖像編輯領域的首個真正突破,它避免了其他工具常見的扭曲和不一致問題,能夠提供照片級的品質。從簡單的編輯(如將側面照轉換為正面照)到涉及多人、序列變化甚至故事板的複雜變換,它始終優於 Gemini、Seedream、FLUX 和 GPT-4o 等頂級模型。

Google 表示正在積極改進長文本渲染、更可靠的角色一致性以及圖像中精細細節的事實表示。這一創新標誌著 AI 圖像生成技術正向更加實用、可靠且易於使用的方向發展,有望重新定義整個創意產業的工作流程。