谷歌揭晓神秘Nano Banana真身：Gemini 2.5图像AI模型引领行业新标准

2025-08-28

GoogleBlog

5 min

新闻摘要

谷歌正式确认推出代号为"Nano Banana"的新一代AI图像生成与编辑模型，官方名称为Gemini 2.5 Flash Image。该模型于8月26日在Gemini应用中正式发布，此前已在匿名测试平台LMArena上引起轰动，被评为全球顶级图像编辑模型。

神秘代号引发猜测，谷歌正式"认领"

在过去几周内，一个名为"Nano Banana"的AI图像编辑模型在社交媒体上掀起热潮。该模型首先出现在众包评估平台LMArena上，以匿名方式与其他AI模型进行"对战"，用户可以输入提示词让两个匿名模型竞争生成最佳结果。令人惊讶的是，这个神秘模型在图像编辑排行榜上持续击败其他竞争对手，引发了广泛关注和猜测。

谷歌DeepMind的首席执行官德米斯·哈萨比斯(Demis Hassabis)甚至在推特上发布了一张显微镜下"奇怪物体"的图片，暗示着这个香蕉相关的项目。8月26日，谷歌正式承认Nano Banana确实是其内部项目，并将其整合到Gemini应用中。

技术突破：95%以上角色一致性保持

新模型的核心优势在于其出色的角色一致性维护能力。用户可以将同一个角色放置在不同环境中，从多个角度展示单一产品，或生成一致的品牌资产，同时完美保持主体特征。据社区报告显示，Nano Banana能够实现95%以上的身份保持率，首次尝试成功率约为90%，远超其他AI模型的表现。

谷歌在博客中解释："我们知道，当编辑您自己或熟悉的人的照片时，细微的缺陷也很重要——'接近但不完全相同'的描绘会让人感觉不对。这就是为什么我们的最新更新旨在让您的朋友、家人甚至宠物的照片始终看起来像他们自己，无论您是在尝试60年代的蜂窝发型还是给您的吉娃娃穿上芭蕾舞裙。"

功能强大，应用广泛

该模型支持多种高级功能，包括将多张图片混合成单一图像、保持角色一致性进行丰富的故事叙述、使用自然语言进行有针对性的变换，以及利用Gemini的世界知识来生成和编辑图像。用户可以更改背景、编辑照片中的单个细节、将自己置于任何想象的照片中、以任何想要的风格呈现，甚至可以提取图像的设计风格并应用到其他物体上。

该模型已经在多个行业展现出实用价值：电商平台用它来扩展产品图像的颜色变体和风格，据报告转化率提升了34%；内容团队能够在一小时内构建完整的营销活动，原本需要数天的工作现在大幅缩短；游戏工作室用它为NPC生成数千个角色肖像；建筑公司生成室内模型图，足以跳过两轮客户修改。

定价策略与安全保障

Gemini 2.5 Flash Image通过Gemini API、Google AI Studio和Vertex AI向开发者和企业用户提供服务，定价为每100万输出tokens 30美元，每张图像相当于1290个输出tokens（约0.039美元/张图片）。

对于普通用户，免费Gemini用户每天可以创建多达100次图像编辑，付费用户的编辑次数可增加十倍。为了解决深度伪造图像的问题，所有通过Gemini 2.5 Flash Image创建或编辑的图像都将包含不可见的SynthID数字水印，以及可见的标识，以便用户能够识别AI生成或编辑的内容。

行业影响与未来展望

谷歌产品负责人妮可·布里希托娃(Nicole Brichtova)在接受采访时表示："我们真正在推动视觉质量的进步，以及模型遵循指令的能力。我们希望给用户创意控制权，让他们能从模型中得到想要的结果，但这并不意味着什么都可以。"

Nano Banana AI的发布被认为是图像编辑领域的首个真正突破，它避免了其他工具常见的扭曲和不一致问题，能够提供照片级别的质量。从简单的编辑（如将侧面照转换为正面照）到涉及多人、序列变化甚至故事板的复杂变换，它始终优于Gemini、Seedream、FLUX和GPT-4o等顶级模型。

谷歌表示正在积极改进长文本渲染、更可靠的角色一致性以及图像中精细细节的事实表示。这一创新标志着AI图像生成技术正向更加实用、可靠和易于使用的方向发展，有望重新定义整个创意产业的工作流程。