Google dévoile le mystérieux Nano Banana : le modèle d'IA d'image Gemini 2.5 ouvre la voie à de nouvelles normes industrielles
Résumé de l'actualité
Google a officiellement confirmé le lancement de sa nouvelle génération de modèle d'IA de génération et d'édition d'images, portant le nom de code "Nano Banana" et officiellement appelé Gemini 2.5 Flash Image. Le modèle a été officiellement lancé le 26 août dans l'application Gemini, après avoir fait sensation sur la plateforme de test anonyme LMArena, où il a été classé comme le meilleur modèle d'édition d'images au monde.
Un nom de code mystérieux suscite des spéculations, Google "revendique" officiellement
Au cours des dernières semaines, un modèle d'édition d'images basé sur l'IA, nommé "Nano Banana", a créé le buzz sur les réseaux sociaux. Le modèle est apparu pour la première fois sur LMArena, une plateforme d'évaluation collaborative, où il a "affronté" d'autres modèles d'IA de manière anonyme. Les utilisateurs pouvaient saisir des invites pour que deux modèles anonymes rivalisent afin de générer le meilleur résultat. Étonnamment, ce modèle mystérieux a constamment battu ses concurrents dans le classement de l'édition d'images, suscitant un large intérêt et de nombreuses spéculations.
Demis Hassabis, PDG de Google DeepMind, a même publié sur Twitter une image d'un "objet étrange" sous un microscope, faisant allusion à ce projet lié à la banane. Le 26 août, Google a officiellement reconnu que Nano Banana était bien son projet interne et l'a intégré à l'application Gemini.
Avancée technologique : maintien de la cohérence des personnages à plus de 95%
L'avantage principal du nouveau modèle réside dans sa capacité exceptionnelle à maintenir la cohérence des personnages. Les utilisateurs peuvent placer le même personnage dans différents environnements, présenter un produit unique sous plusieurs angles, ou générer des actifs de marque cohérents, tout en conservant parfaitement les caractéristiques du sujet. Selon les rapports de la communauté, Nano Banana peut atteindre un taux de maintien de l'identité de plus de 95%, avec un taux de réussite d'environ 90% dès la première tentative, surpassant de loin les performances des autres modèles d'IA.
Google a expliqué dans son blog : "Nous savons que lorsque vous éditez des photos de vous-même ou de personnes que vous connaissez, les moindres imperfections comptent – une représentation 'proche mais pas tout à fait identique' peut sembler fausse. C'est pourquoi notre dernière mise à jour vise à ce que les photos de vos amis, de votre famille et même de vos animaux de compagnie leur ressemblent toujours, que vous essayiez une coiffure choucroute des années 60 ou que vous habilliez votre chihuahua en tutu de ballerine."
Fonctionnalités puissantes, applications étendues
Le modèle prend en charge diverses fonctionnalités avancées, notamment la fusion de plusieurs images en une seule, la narration riche avec maintien de la cohérence des personnages, les transformations ciblées à l'aide du langage naturel, et l'utilisation des connaissances mondiales de Gemini pour générer et éditer des images. Les utilisateurs peuvent changer l'arrière-plan, éditer des détails individuels dans une photo, se placer dans n'importe quelle photo imaginée, se présenter dans n'importe quel style souhaité, et même extraire le style de conception d'une image pour l'appliquer à d'autres objets.
Le modèle a déjà démontré sa valeur pratique dans plusieurs secteurs : les plateformes de commerce électronique l'utilisent pour étendre les variantes de couleurs et les styles des images de produits, avec une augmentation rapportée de 34% du taux de conversion ; les équipes de contenu peuvent construire des campagnes marketing complètes en une heure, réduisant considérablement un travail qui prenait auparavant plusieurs jours ; les studios de jeux l'utilisent pour générer des milliers de portraits de personnages pour les PNJ ; les entreprises d'architecture génèrent des rendus intérieurs, permettant de sauter deux cycles de modifications client.
Stratégie de tarification et sécurité
Gemini 2.5 Flash Image est disponible pour les développeurs et les entreprises via l'API Gemini, Google AI Studio et Vertex AI, au prix de 30 dollars par million de jetons de sortie. Chaque image équivaut à 1290 jetons de sortie (environ 0,039 dollar par image).
Pour les utilisateurs ordinaires, les utilisateurs gratuits de Gemini peuvent créer jusqu'à 100 modifications d'images par jour, tandis que les utilisateurs payants peuvent multiplier par dix le nombre de modifications. Afin de résoudre le problème des images deepfake, toutes les images créées ou éditées via Gemini 2.5 Flash Image incluront un filigrane numérique invisible SynthID, ainsi qu'un identifiant visible, permettant aux utilisateurs de reconnaître le contenu généré ou édité par l'IA.
Impact sur l'industrie et perspectives d'avenir
Nicole Brichtova, responsable produit chez Google, a déclaré lors d'une interview : "Nous faisons réellement progresser la qualité visuelle et la capacité du modèle à suivre les instructions. Nous voulons donner aux utilisateurs un contrôle créatif pour qu'ils puissent obtenir les résultats souhaités du modèle, mais cela ne signifie pas que tout est permis."
Le lancement de Nano Banana AI est considéré comme la première véritable percée dans le domaine de l'édition d'images. Il évite les distorsions et les incohérences courantes des autres outils et est capable de fournir une qualité photographique. Des modifications simples (comme transformer une photo de profil en photo de face) aux transformations complexes impliquant plusieurs personnes, des changements séquentiels ou même des storyboards, il surpasse constamment les modèles de pointe tels que Gemini, Seedream, FLUX et GPT-4o.
Google a déclaré travailler activement à l'amélioration du rendu des textes longs, d'une cohérence des personnages plus fiable et de la représentation factuelle des détails fins dans les images. Cette innovation marque une évolution de la technologie de génération d'images par l'IA vers une direction plus pratique, fiable et facile à utiliser, susceptible de redéfinir les flux de travail de l'ensemble de l'industrie créative.