Google enthüllt die mysteriöse Identität von Nano Banana: Gemini 2.5 Bild-KI-Modell setzt neue Branchenstandards
Nachrichtenübersicht
Google hat offiziell die Einführung seines KI-Bildgenerierungs- und Bearbeitungsmodells der nächsten Generation mit dem Codenamen "Nano Banana" bestätigt, das offiziell als Gemini 2.5 Flash Image bezeichnet wird. Das Modell wurde am 26. August in der Gemini-App veröffentlicht, nachdem es zuvor auf der anonymen Testplattform LMArena für Furore gesorgt und als weltweit führendes Bildbearbeitungsmodell eingestuft worden war.
Geheimnisvoller Codename löst Spekulationen aus, Google "bekennt sich" offiziell
In den letzten Wochen hat ein KI-Bildbearbeitungsmodell namens "Nano Banana" in den sozialen Medien für Aufsehen gesorgt. Das Modell erschien zuerst auf der Crowdsourcing-Bewertungsplattform LMArena, wo es anonym gegen andere KI-Modelle "antrat". Benutzer konnten Prompts eingeben, um zwei anonyme Modelle um die Erzeugung der besten Ergebnisse konkurrieren zu lassen. Überraschenderweise schlug dieses mysteriöse Modell auf der Rangliste der Bildbearbeitung kontinuierlich andere Konkurrenten, was zu breiter Aufmerksamkeit und Spekulationen führte.
Demis Hassabis, CEO von Google DeepMind, postete sogar ein Bild eines "seltsamen Objekts" unter dem Mikroskop auf Twitter, was auf dieses bananenbezogene Projekt hindeutete. Am 26. August gab Google offiziell zu, dass Nano Banana tatsächlich ein internes Projekt war, und integrierte es in die Gemini-App.
Technologischer Durchbruch: Über 95% Charakterkonsistenz
Der Kernvorteil des neuen Modells liegt in seiner hervorragenden Fähigkeit zur Aufrechterhaltung der Charakterkonsistenz. Benutzer können dieselbe Figur in verschiedenen Umgebungen platzieren, ein einzelnes Produkt aus mehreren Blickwinkeln präsentieren oder konsistente Markenassets generieren, während die Merkmale des Subjekts perfekt erhalten bleiben. Laut Community-Berichten erreicht Nano Banana eine Identitätserhaltungsrate von über 95% und eine Erfolgsquote beim ersten Versuch von etwa 90%, was die Leistung anderer KI-Modelle bei weitem übertrifft.
Google erklärte in einem Blogbeitrag: "Wir wissen, dass beim Bearbeiten von Fotos von Ihnen selbst oder vertrauten Personen selbst subtile Fehler wichtig sind – eine 'nahezu, aber nicht ganz identische' Darstellung fühlt sich falsch an. Deshalb zielt unser neuestes Update darauf ab, dass Fotos Ihrer Freunde, Familie und sogar Haustiere immer wie sie selbst aussehen, egal ob Sie eine 60er-Jahre-Bienenkorbfrisur ausprobieren oder Ihrem Chihuahua ein Ballett-Tutu anziehen."
Leistungsstarke Funktionen, breite Anwendung
Das Modell unterstützt eine Vielzahl fortschrittlicher Funktionen, darunter das Mischen mehrerer Bilder zu einem einzigen Bild, die Beibehaltung der Charakterkonsistenz für reichhaltiges Storytelling, gezielte Transformationen mittels natürlicher Sprache sowie die Nutzung des Weltwissens von Gemini zur Generierung und Bearbeitung von Bildern. Benutzer können Hintergründe ändern, einzelne Details in Fotos bearbeiten, sich selbst in jedes imaginäre Foto einfügen, in jedem gewünschten Stil rendern und sogar den Designstil eines Bildes extrahieren und auf andere Objekte anwenden.
Das Modell hat bereits in mehreren Branchen seinen praktischen Wert unter Beweis gestellt: E-Commerce-Plattformen nutzen es, um Farbvarianten und Stile von Produktbildern zu erweitern, wobei eine Steigerung der Konversionsraten um 34% gemeldet wurde; Content-Teams können innerhalb einer Stunde komplette Marketingkampagnen erstellen, wodurch die Arbeit, die ursprünglich Tage dauerte, erheblich verkürzt wird; Spielestudios generieren damit Tausende von Charakterporträts für NPCs; Architekturbüros erstellen Innenraummodellbilder, die ausreichen, um zwei Runden von Kundenänderungen zu überspringen.
Preisstrategie und Sicherheitsvorkehrungen
Gemini 2.5 Flash Image wird Entwicklern und Unternehmenskunden über die Gemini API, Google AI Studio und Vertex AI zur Verfügung gestellt, mit einem Preis von 30 US-Dollar pro 1 Million Output-Tokens, wobei jedes Bild 1290 Output-Tokens (ca. 0,039 US-Dollar pro Bild) entspricht.
Für normale Benutzer können kostenlose Gemini-Benutzer täglich bis zu 100 Bildbearbeitungen erstellen, während die Anzahl der Bearbeitungen für zahlende Benutzer verzehnfacht werden kann. Um das Problem von Deepfake-Bildern zu lösen, werden alle mit Gemini 2.5 Flash Image erstellten oder bearbeiteten Bilder ein unsichtbares SynthID-Digitalwasserzeichen sowie eine sichtbare Kennzeichnung enthalten, damit Benutzer KI-generierte oder bearbeitete Inhalte erkennen können.
Branchenauswirkungen und Zukunftsaussichten
Nicole Brichtova, Produktleiterin bei Google, erklärte in einem Interview: "Wir treiben wirklich Fortschritte bei der visuellen Qualität und der Fähigkeit des Modells, Anweisungen zu befolgen, voran. Wir möchten den Benutzern kreative Kontrolle geben, damit sie die gewünschten Ergebnisse vom Modell erhalten, aber das bedeutet nicht, dass alles möglich ist."
Die Veröffentlichung von Nano Banana AI wird als der erste echte Durchbruch im Bereich der Bildbearbeitung angesehen. Es vermeidet die bei anderen Tools üblichen Verzerrungen und Inkonsistenzen und liefert eine Qualität auf Foto-Niveau. Von einfachen Bearbeitungen (wie dem Umwandeln eines Seitenprofils in eine Frontansicht) bis hin zu komplexen Transformationen, die mehrere Personen, sequentielle Änderungen oder sogar Storyboards umfassen, übertrifft es durchweg Top-Modelle wie Gemini, Seedream, FLUX und GPT-4o.
Google gab an, aktiv an der Verbesserung der Langtextwiedergabe, einer zuverlässigeren Charakterkonsistenz und der faktischen Darstellung feiner Details in Bildern zu arbeiten. Diese Innovation markiert die Entwicklung der KI-Bildgenerierungstechnologie hin zu mehr Praktikabilität, Zuverlässigkeit und Benutzerfreundlichkeit und verspricht, die Arbeitsabläufe in der gesamten Kreativbranche neu zu definieren.