DeepMind stellt SIMA 2 vor: Durch Gemini unterstützter KI-Agent in virtuellen Welten erzielt Durchbruch bei Schlussfolgerung und autonomem Lernen

November 15, 2025
Google DeepMind
5 min

Zusammenfassung

Am 13. November 2025 (Ortszeit Ostküste der USA) stellte Google DeepMind SIMA 2 (Scalable Instructable Multiworld Agent) vor – einen neuen KI-Agenten der nächsten Generation, der auf dem Gemini-Modell basiert. Dieses System kann nicht nur Anweisungen in 3D-virtuellen Welten ausführen, sondern verfügt zudem über Fähigkeiten zum Schlussfolgern, Dialogführen und selbstständigen Lernen. Damit markiert es einen bedeutenden Fortschritt in der Forschung zu allgemeiner künstlicher Intelligenz (AGI). Die Erfolgsquote von SIMA 2 bei Aufgaben ist im Vergleich zur Vorgängerversion deutlich gestiegen, und es kann sogar in Spielumgebungen agieren, für die es nie trainiert wurde – ein wichtiger Meilenstein für zukünftige Robotiktechnologien.


Technologischer Durchbruch: Von der Befehlsausführung zur Entscheidungsfindung durch Schlussfolgerung

Die erste Version von SIMA wurde im März 2024 veröffentlicht und konnte in mehreren kommerziellen Spielen über 600 grundlegende Aktionen wie „nach links drehen“, „Leiter erklimmen“ oder „Karte öffnen“ ausführen. Das System bediente sich dabei eines virtuellen Tastatur- und Maus-Interfaces und simuliert so das Verhalten menschlicher Spieler, indem es den Bildschirm „beobachtet“.

Mit der Integration des Gemini 2.5 Flash-Lite-Modells erreicht SIMA 2 einen qualitativen Sprung. Laut Joe Marino, Senior Research Scientist bei DeepMind, zeige SIMA 2 gegenüber seinem Vorgänger „sprunghafte Verbesserungen und Weiterentwicklungen“. Statt bloß auf Anweisungen zu reagieren, versteht das System nun übergeordnete Ziele, führt komplexe Schlussfolgerungen durch und erklärt dem Nutzer seine Absichten sowie die geplanten Handlungsschritte.

In Tests schnitt SIMA 2 deutlich besser ab als seine Vorgängerversion: Bei komplexen Aufgaben lag die Erfolgsrate von SIMA 1 bei lediglich 31 %, während menschliche Spieler 71 % erreichten. SIMA 2 schloss diese Lücke erheblich und erreichte in mehreren Bewertungsaufgaben nahezu menschliches Niveau.

Generalisierungsfähigkeit über verschiedene Umgebungen hinweg

Eine der bemerkenswertesten Eigenschaften von SIMA 2 ist seine hervorragende Fähigkeit zur Generalisierung. Das System funktioniert nicht nur in den acht kommerziellen Spielen, mit denen es trainiert wurde – darunter „No Man’s Sky“, „Valheim“ und „Goat Simulator 3“ –, sondern kann auch in völlig unbekannten Spielumgebungen erfolgreich Aufgaben ausführen.

In Tests mit dem Wikinger-Überlebensspiel „ASKA“ und der Minecraft-Forschungsvariante „MineDojo“ zeigte SIMA 2 beeindruckende Transfer-Lernfähigkeiten. So übertrug es beispielsweise das in einem Spiel erlernte Konzept des „Bergbaus“ auf eine „Erntesituation“ in einem anderen Spiel. Diese Fähigkeit zur konzeptuellen Übertragung ist eine entscheidende Grundlage für menschenähnliche Kognition.

Besonders beeindruckend ist, dass SIMA 2 in Kombination mit Genie 3 – einem weiteren DeepMind-Forschungsprojekt, das aus einem einzigen Bild oder Textprompt Echtzeit-3D-Simulationswelten generieren kann – in neu erstellten virtuellen Umgebungen schnell Orientierung findet, Anweisungen versteht und sinnvolle Aktionen ausführt.

Mechanismus zur Selbstverbesserung

Der revolutionäre Aspekt von SIMA 2 liegt in seiner Fähigkeit zum selbstständigen Lernen. Im Gegensatz zu SIMA 1, das vollständig auf menschlichen Spieldaten trainiert wurde, nutzt SIMA 2 nach einer ersten Trainingsphase mit menschlichen Demonstrationsdaten als Ausgangspunkt einen autonomen Lernmodus.

Ein weiteres Gemini-Modell generiert dabei neue Aufgaben, während ein unabhängiges Belohnungsmodell die Leistung des Agenten bewertet. Mithilfe dieser selbst erzeugten Erfahrungsdaten lernt SIMA 2 aus eigenen Fehlern und verbessert sich kontinuierlich durch Versuch und Irrtum. Im Wesentlichen unterrichtet es sich selbst neue Verhaltensweisen unter Anleitung von KI-generiertem Feedback, anstatt auf menschliches Feedback angewiesen zu sein.

Dieser Zyklus der Selbstverbesserung ebnet den Weg für zukünftige Entwicklungen in der Künstlichen Intelligenz und ermöglicht es Agenten, mit minimalem menschlichem Eingriff zu lernen und zu wachsen – als offene Lernsysteme im Bereich der verkörperten KI.

Multimodale Interaktion

SIMA 2 unterstützt vielfältige Interaktionsformen: Nutzer können den Agenten per Textchat, Sprachdialog oder durch Zeichnen direkt auf dem Spielfenster steuern. Das System versteht Anweisungen in verschiedenen Sprachen und interpretiert sogar Emojis korrekt, um entsprechende Aufgaben auszuführen.

Laut Jane Wang, Senior Research Scientist bei DeepMind, in einem Interview mit TechCrunch geht der Anwendungsbereich von SIMA 2 weit über Spiele hinaus. Das Forschungsteam sieht in dieser Arbeit einen wichtigen Schritt hin zu allgemeineren Agenten und verbesserten Robotersystemen in der realen Welt.

Brücke zur Robotik

DeepMind betrachtet SIMA 2 als Schlüsselkomponente für die Entwicklung der nächsten Generation intelligenter Agenten, die in Umgebungen agieren können, die komplexer sind als ein Webbrowser, und offene Aufgaben erfüllen. Langfristig zielt die Technologie darauf ab, physische Robotersysteme in der realen Welt anzutreiben.

Frederic Besse, Senior Research Engineer bei DeepMind, erklärte auf der Pressekonferenz, dass SIMA 2 eher als strategischer Entscheider denn als Low-Level-Bewegungscontroller verstanden werden sollte: „Aus robotischer Sicht beantwortet es die Fragen ‚Was tun und warum?‘, nicht ‚Wie steuere ich Gelenkmomente?‘“ Diese hierarchische Struktur spiegelt gängige Ansätze in modernen Laboren wider: eine Planungsebene oben, darunter Wahrnehmungs- und Steuerungsebenen.

Die Fähigkeiten, die SIMA 2 erlernt – Navigation, Werkzeuggebrauch und kooperative Aufgabendurchführung – bilden genau jene grundlegenden Bausteine, die zukünftige Roboterbegleiter in der realen Welt benötigen werden.

Aktuelle Grenzen und zukünftige Richtungen

Trotz der beeindruckenden Fortschritte steht SIMA 2 noch vor Herausforderungen. Bei langfristigen, komplexen Aufgaben, die umfangreiches mehrstufiges Schlussfolgern und Zielverifikation erfordern, stößt das System noch an Grenzen. Außerdem ist sein interaktives Gedächtnis relativ kurz; es muss mit einem begrenzten Kontextfenster arbeiten, um niedrige Latenzzeiten zu gewährleisten. Präzise Low-Level-Aktionen über virtuelle Tastatur- und Mausschnittstellen sowie robuste visuelle Interpretation komplexer 3D-Szenen bleiben offene Forschungsfragen für die gesamte Branche.

Entwicklungsansatz

DeepMind betont besonders das Engagement für eine verantwortungsvolle Entwicklung von SIMA 2. Das Team arbeitete eng mit dem Team für verantwortungsvolle Innovation zusammen und veröffentlicht SIMA 2 zunächst als eingeschränkte Forschungsvorschau, die nur ausgewählten Wissenschaftlern und Spieleentwicklern frühzeitig zugänglich gemacht wird. Ziel dieses Ansatzes ist es, entscheidende Rückmeldungen und interdisziplinäre Perspektiven zu sammeln, um gleichzeitig Risiken besser zu verstehen und geeignete Absicherungsmaßnahmen zu entwickeln.

Laut offiziellen Angaben wird in Kürze ein vollständiger technischer Bericht veröffentlicht. Das Projekt erhielt Unterstützung mehrerer Spieleentwickler wie Coffee Stain, Hello Games und Thunderful Games und wurde in zahlreichen kommerziellen Spielen – darunter „No Man’s Sky“, „Valheim“, „Goat Simulator 3“ und „Teardown“ – trainiert und evaluiert.

Die Einführung von SIMA 2 markiert einen entscheidenden Wandel in der KI-Forschung: weg von spezialisierten Systemen hin zu universellen Agenten und legt somit eine solide Grundlage für die zukünftige Entwicklung intelligenter digitaler Assistenten und physischer Roboter.