谷歌揭曉神秘Nano Banana真身：Gemini 2.5圖像AI模型引領行業新標準

August 28, 2025

GoogleBlog

5 min

新聞摘要

Google 正式確認推出代號為「Nano Banana」的新一代 AI 圖像生成與編輯模型，官方名稱為 Gemini 2.5 Flash Image。該模型於 8 月 26 日在 Gemini 應用程式中正式發布，此前已在匿名測試平台 LMArena 上引起轟動，被評為全球頂級圖像編輯模型。

神秘代號引發猜測，Google 正式「認領」

在過去幾週內，一個名為「Nano Banana」的 AI 圖像編輯模型在社群媒體上掀起熱潮。該模型首先出現在眾包評估平台 LMArena 上，以匿名方式與其他 AI 模型進行「對戰」，用戶可以輸入提示詞讓兩個匿名模型競爭生成最佳結果。令人驚訝的是，這個神秘模型在圖像編輯排行榜上持續擊敗其他競爭對手，引發了廣泛關注和猜測。

Google DeepMind 的執行長德米斯·哈薩比斯 (Demis Hassabis) 甚至在 Twitter 上發布了一張顯微鏡下「奇怪物體」的圖片，暗示著這個香蕉相關的項目。8 月 26 日，Google 正式承認 Nano Banana 確實是其內部項目，並將其整合到 Gemini 應用程式中。

技術突破：95%以上角色一致性保持

新模型的核心優勢在於其出色的角色一致性維護能力。用戶可以將同一個角色放置在不同環境中，從多個角度展示單一產品，或生成一致的品牌資產，同時完美保持主體特徵。據社群報告顯示，Nano Banana 能夠實現 95% 以上的身份保持率，首次嘗試成功率約為 90%，遠超其他 AI 模型的表現。

Google 在部落格中解釋：「我們知道，當編輯您自己或熟悉的人的照片時，細微的缺陷也很重要——『接近但不完全相同』的描繪會讓人感覺不對。這就是為什麼我們的最新更新旨在讓您的朋友、家人甚至寵物的照片始終看起來像他們自己，無論您是在嘗試 60 年代的蜂窩髮型還是給您的吉娃娃穿上芭蕾舞裙。」

功能強大，應用廣泛

該模型支援多種高級功能，包括將多張圖片混合成單一圖像、保持角色一致性進行豐富的故事敘述、使用自然語言進行有針對性的變換，以及利用 Gemini 的世界知識來生成和編輯圖像。用戶可以更改背景、編輯照片中的單個細節、將自己置於任何想像的照片中、以任何想要的風格呈現，甚至可以提取圖像的設計風格並應用到其他物體上。

該模型已在多個產業展現出實用價值：電商平台用它來擴展產品圖像的顏色變體和風格，據報告轉換率提升了 34%；內容團隊能夠在一小時內建構完整的行銷活動，原本需要數天的工作現在大幅縮短；遊戲工作室用它為 NPC 生成數千個角色肖像；建築公司生成室內模型圖，足以跳過兩輪客戶修改。

定價策略與安全保障

Gemini 2.5 Flash Image 透過 Gemini API、Google AI Studio 和 Vertex AI 向開發者和企業用戶提供服務，定價為每 100 萬輸出 tokens 30 美元，每張圖像相當於 1290 個輸出 tokens（約 0.039 美元/張圖片）。

對於普通用戶，免費 Gemini 用戶每天可以創建多達 100 次圖像編輯，付費用戶的編輯次數可增加十倍。為了解決深度偽造圖像的問題，所有透過 Gemini 2.5 Flash Image 創建或編輯的圖像都將包含不可見的 SynthID 數位浮水印，以及可見的標識，以便用戶能夠識別 AI 生成或編輯的內容。

產業影響與未來展望

Google 產品負責人妮可·布里希托娃 (Nicole Brichtova) 在接受採訪時表示：「我們真正在推動視覺品質的進步，以及模型遵循指令的能力。我們希望給用戶創意控制權，讓他們能從模型中得到想要的結果，但這並不意味著什麼都可以。」

Nano Banana AI 的發布被認為是圖像編輯領域的首個真正突破，它避免了其他工具常見的扭曲和不一致問題，能夠提供照片級的品質。從簡單的編輯（如將側面照轉換為正面照）到涉及多人、序列變化甚至故事板的複雜變換，它始終優於 Gemini、Seedream、FLUX 和 GPT-4o 等頂級模型。

Google 表示正在積極改進長文本渲染、更可靠的角色一致性以及圖像中精細細節的事實表示。這一創新標誌著 AI 圖像生成技術正向更加實用、可靠且易於使用的方向發展，有望重新定義整個創意產業的工作流程。