Google revela a misteriosa identidade de Nano Banana: Modelo de IA de imagem Gemini 2.5 lidera um novo padrão da indústria

August 28, 2025
GoogleBlog
5 min

Resumo de Notícias

O Google confirmou oficialmente o lançamento de sua nova geração de modelo de geração e edição de imagens por IA, codinome "Nano Banana", com o nome oficial Gemini 2.5 Flash Image. O modelo foi lançado oficialmente em 26 de agosto no aplicativo Gemini, após ter causado sensação na plataforma de testes anônima LMArena, onde foi classificado como o principal modelo de edição de imagens do mundo.

Codinome Misterioso Gera Especulações, Google "Reivindica" Oficialmente

Nas últimas semanas, um modelo de edição de imagens por IA chamado "Nano Banana" gerou grande entusiasmo nas redes sociais. O modelo apareceu pela primeira vez na plataforma de avaliação colaborativa LMArena, onde "enfrentou" outros modelos de IA de forma anônima. Os usuários podiam inserir prompts para que dois modelos anônimos competissem na geração dos melhores resultados. Surpreendentemente, este modelo misterioso superou consistentemente seus concorrentes nas classificações de edição de imagens, gerando ampla atenção e especulação.

Demis Hassabis, CEO da Google DeepMind, chegou a postar uma imagem de um "objeto estranho" sob um microscópio no Twitter, aludindo ao projeto relacionado à banana. Em 26 de agosto, o Google reconheceu oficialmente que o Nano Banana era de fato um projeto interno e o integrou ao aplicativo Gemini.

Avanço Tecnológico: Manutenção de Mais de 95% de Consistência de Personagens

A principal vantagem do novo modelo reside em sua excelente capacidade de manter a consistência dos personagens. Os usuários podem colocar o mesmo personagem em diferentes ambientes, exibir um único produto de múltiplos ângulos ou gerar ativos de marca consistentes, mantendo perfeitamente as características do sujeito. De acordo com relatórios da comunidade, o Nano Banana consegue uma taxa de retenção de identidade superior a 95%, com uma taxa de sucesso na primeira tentativa de cerca de 90%, superando em muito o desempenho de outros modelos de IA.

O Google explicou em seu blog: "Sabemos que, ao editar fotos suas ou de pessoas conhecidas, até mesmo pequenas imperfeições importam — uma representação 'próxima, mas não exatamente igual' pode parecer errada. É por isso que nossa atualização mais recente visa garantir que as fotos de seus amigos, familiares e até animais de estimação sempre se pareçam com eles mesmos, quer você esteja experimentando um penteado colmeia dos anos 60 ou vestindo seu chihuahua com uma saia de balé."

Funcionalidades Poderosas, Aplicações Abrangentes

O modelo suporta várias funcionalidades avançadas, incluindo a mistura de múltiplas imagens em uma única, a manutenção da consistência de personagens para uma narrativa rica, a realização de transformações direcionadas usando linguagem natural e a utilização do conhecimento de mundo do Gemini para gerar e editar imagens. Os usuários podem alterar fundos, editar detalhes individuais em fotos, colocar-se em qualquer foto imaginária, apresentar-se em qualquer estilo desejado e até mesmo extrair o estilo de design de uma imagem e aplicá-lo a outros objetos.

O modelo já demonstrou valor prático em vários setores: plataformas de e-commerce o utilizam para expandir as variantes de cores e estilos de imagens de produtos, com um aumento relatado de 34% nas taxas de conversão; equipes de conteúdo conseguem construir campanhas de marketing completas em uma hora, reduzindo drasticamente o trabalho que antes levava dias; estúdios de jogos o empregam para gerar milhares de retratos de personagens para NPCs; e empresas de arquitetura criam modelos de interiores que permitem pular duas rodadas de modificações do cliente.

Estratégia de Preços e Garantias de Segurança

O Gemini 2.5 Flash Image é oferecido a desenvolvedores e usuários corporativos através da Gemini API, Google AI Studio e Vertex AI, com preço de US$ 30 por milhão de tokens de saída. Cada imagem equivale a 1290 tokens de saída (aproximadamente US$ 0,039 por imagem).

Para usuários comuns, os usuários gratuitos do Gemini podem criar até 100 edições de imagem por dia, enquanto os usuários pagantes podem aumentar o número de edições em dez vezes. Para combater o problema das imagens deepfake, todas as imagens criadas ou editadas através do Gemini 2.5 Flash Image incluirão uma marca d'água digital invisível SynthID, bem como uma identificação visível, para que os usuários possam reconhecer o conteúdo gerado ou editado por IA.

Impacto na Indústria e Perspectivas Futuras

Nicole Brichtova, líder de produto do Google, afirmou em entrevista: "Estamos realmente impulsionando o avanço da qualidade visual e da capacidade do modelo de seguir instruções. Queremos dar aos usuários controle criativo para que possam obter os resultados desejados do modelo, mas isso não significa que tudo seja possível."

O lançamento do Nano Banana AI é considerado o primeiro verdadeiro avanço no campo da edição de imagens, pois evita as distorções e inconsistências comuns em outras ferramentas, sendo capaz de fornecer qualidade de nível fotográfico. Desde edições simples (como converter uma foto de perfil em uma foto frontal) até transformações complexas envolvendo várias pessoas, mudanças sequenciais e até storyboards, ele consistentemente supera modelos de ponta como Gemini, Seedream, FLUX e GPT-4o.

O Google afirmou que está trabalhando ativamente para melhorar a renderização de texto longo, a consistência mais confiável de personagens e a representação factual de detalhes finos em imagens. Esta inovação marca o desenvolvimento da tecnologia de geração de imagens por IA em uma direção mais prática, confiável e fácil de usar, com o potencial de redefinir os fluxos de trabalho de toda a indústria criativa.