谷歌揭晓神秘Nano Banana真身:Gemini 2.5图像AI模型引领行业新标准

2025-08-28
GoogleBlog
5 min

新闻摘要

谷歌正式确认推出代号为"Nano Banana"的新一代AI图像生成与编辑模型,官方名称为Gemini 2.5 Flash Image。该模型于8月26日在Gemini应用中正式发布,此前已在匿名测试平台LMArena上引起轰动,被评为全球顶级图像编辑模型。

神秘代号引发猜测,谷歌正式"认领"

在过去几周内,一个名为"Nano Banana"的AI图像编辑模型在社交媒体上掀起热潮。该模型首先出现在众包评估平台LMArena上,以匿名方式与其他AI模型进行"对战",用户可以输入提示词让两个匿名模型竞争生成最佳结果。令人惊讶的是,这个神秘模型在图像编辑排行榜上持续击败其他竞争对手,引发了广泛关注和猜测。

谷歌DeepMind的首席执行官德米斯·哈萨比斯(Demis Hassabis)甚至在推特上发布了一张显微镜下"奇怪物体"的图片,暗示着这个香蕉相关的项目。8月26日,谷歌正式承认Nano Banana确实是其内部项目,并将其整合到Gemini应用中。

技术突破:95%以上角色一致性保持

新模型的核心优势在于其出色的角色一致性维护能力。用户可以将同一个角色放置在不同环境中,从多个角度展示单一产品,或生成一致的品牌资产,同时完美保持主体特征。据社区报告显示,Nano Banana能够实现95%以上的身份保持率,首次尝试成功率约为90%,远超其他AI模型的表现。

谷歌在博客中解释:"我们知道,当编辑您自己或熟悉的人的照片时,细微的缺陷也很重要——'接近但不完全相同'的描绘会让人感觉不对。这就是为什么我们的最新更新旨在让您的朋友、家人甚至宠物的照片始终看起来像他们自己,无论您是在尝试60年代的蜂窝发型还是给您的吉娃娃穿上芭蕾舞裙。"

功能强大,应用广泛

该模型支持多种高级功能,包括将多张图片混合成单一图像、保持角色一致性进行丰富的故事叙述、使用自然语言进行有针对性的变换,以及利用Gemini的世界知识来生成和编辑图像。用户可以更改背景、编辑照片中的单个细节、将自己置于任何想象的照片中、以任何想要的风格呈现,甚至可以提取图像的设计风格并应用到其他物体上。

该模型已经在多个行业展现出实用价值:电商平台用它来扩展产品图像的颜色变体和风格,据报告转化率提升了34%;内容团队能够在一小时内构建完整的营销活动,原本需要数天的工作现在大幅缩短;游戏工作室用它为NPC生成数千个角色肖像;建筑公司生成室内模型图,足以跳过两轮客户修改。

定价策略与安全保障

Gemini 2.5 Flash Image通过Gemini API、Google AI Studio和Vertex AI向开发者和企业用户提供服务,定价为每100万输出tokens 30美元,每张图像相当于1290个输出tokens(约0.039美元/张图片)。

对于普通用户,免费Gemini用户每天可以创建多达100次图像编辑,付费用户的编辑次数可增加十倍。为了解决深度伪造图像的问题,所有通过Gemini 2.5 Flash Image创建或编辑的图像都将包含不可见的SynthID数字水印,以及可见的标识,以便用户能够识别AI生成或编辑的内容。

行业影响与未来展望

谷歌产品负责人妮可·布里希托娃(Nicole Brichtova)在接受采访时表示:"我们真正在推动视觉质量的进步,以及模型遵循指令的能力。我们希望给用户创意控制权,让他们能从模型中得到想要的结果,但这并不意味着什么都可以。"

Nano Banana AI的发布被认为是图像编辑领域的首个真正突破,它避免了其他工具常见的扭曲和不一致问题,能够提供照片级别的质量。从简单的编辑(如将侧面照转换为正面照)到涉及多人、序列变化甚至故事板的复杂变换,它始终优于Gemini、Seedream、FLUX和GPT-4o等顶级模型。

谷歌表示正在积极改进长文本渲染、更可靠的角色一致性以及图像中精细细节的事实表示。这一创新标志着AI图像生成技术正向更加实用、可靠和易于使用的方向发展,有望重新定义整个创意产业的工作流程。