DeepMind dévoile SIMA 2 : une percée dans le raisonnement et l’apprentissage autonome grâce à un agent IA dans les mondes virtuels propulsé par Gemini

November 15, 2025
Google DeepMind
6 min

Résumé

Le 13 novembre 2025 (heure de l’Est des États-Unis), Google DeepMind a lancé SIMA 2 (Scalable Instructable Multiworld Agent), un nouvel agent IA de nouvelle génération alimenté par le modèle Gemini. Ce système ne se contente pas d’exécuter des instructions dans des mondes virtuels en 3D ; il possède également des capacités de raisonnement, de dialogue et d’auto-apprentissage, marquant ainsi une avancée significative dans la recherche sur l’intelligence artificielle générale (AGI). Le taux de réussite de SIMA 2 aux tâches a nettement augmenté par rapport à sa version précédente, et il peut fonctionner dans des environnements de jeu jamais vus auparavant, jetant ainsi les bases des futures technologies robotiques.


Percée technologique : du suivi d’instructions à la prise de décision raisonnée

La première version de SIMA, publiée en mars 2024, pouvait exécuter plus de 600 compétences de base dans plusieurs jeux commerciaux, telles que « tourner à gauche », « grimper une échelle » ou « ouvrir la carte ». Ce système opérait en « regardant » l’écran et en utilisant un clavier et une souris virtuels, imitant ainsi le comportement humain lors du jeu.

SIMA 2 représente un bond qualitatif grâce à l’intégration du modèle Gemini 2.5 Flash-Lite. Selon Joe Marino, chercheur senior chez DeepMind, SIMA 2 constitue une « amélioration et un changement progressifs majeurs » par rapport à sa version précédente. Il ne se limite plus à répondre passivement aux commandes, mais comprend désormais des objectifs de haut niveau, effectue des raisonnements complexes et explique clairement à l’utilisateur ses intentions et les étapes de ses actions.

Lors des tests, SIMA 2 s’est nettement distingué de sa version antérieure. Pour des tâches complexes, SIMA 1 n’atteignait qu’un taux de réussite de 31 %, contre 71 % pour les joueurs humains. SIMA 2 a considérablement réduit cet écart, affichant des performances proches du niveau humain sur plusieurs tâches d’évaluation.

Capacité de généralisation inter-environnements

L’une des caractéristiques les plus remarquables de SIMA 2 est sa capacité exceptionnelle de généralisation. Non seulement il fonctionne dans les huit jeux commerciaux sur lesquels il a été entraîné — notamment No Man’s Sky, Valheim et Goat Simulator 3 —, mais il réussit aussi à accomplir des tâches dans des environnements de jeu totalement inédits.

Lors de tests menés sur le jeu de survie viking ASKA et sur MineDojo, une version expérimentale de Minecraft, SIMA 2 a démontré une puissante capacité d’apprentissage par transfert. Il a pu appliquer le concept de « minage » appris dans un jeu à une situation de « récolte » dans un autre, illustrant ainsi une aptitude au transfert conceptuel essentielle à une cognition semblable à celle de l’humain.

Plus impressionnant encore, lorsque SIMA 2 est combiné avec Genie 3 — une autre innovation de DeepMind capable de générer en temps réel des mondes simulés en 3D à partir d’une simple image ou d’une instruction textuelle —, il peut rapidement localiser des objets, comprendre les instructions et exécuter des actions pertinentes dans des environnements virtuels entièrement nouveaux.

Mécanisme d’auto-amélioration

L’innovation révolutionnaire de SIMA 2 réside dans sa capacité d’auto-apprentissage. Contrairement à SIMA 1, entièrement dépendant de données issues de parties humaines, SIMA 2 utilise initialement des démonstrations humaines comme point de départ, puis passe à un mode autonome d’apprentissage.

Le système fonctionne en faisant créer de nouvelles tâches par un autre modèle Gemini, tandis qu’un modèle de récompense indépendant évalue les performances de l’agent. Grâce à ces données auto-générées, SIMA 2 apprend de ses erreurs et s’améliore continuellement par essais et erreurs, se formant essentiellement lui-même sous la supervision d’un retour fourni par l’IA, sans dépendre de retours humains.

Ce cycle d’auto-amélioration ouvre la voie à l’avenir de l’intelligence artificielle, permettant aux agents d’apprendre et de grandir avec une intervention humaine minimale, devenant ainsi des apprenants ouverts dans le domaine de l’IA incarnée.

Expérience interactive multimodale

SIMA 2 prend en charge plusieurs modes d’interaction : les utilisateurs peuvent contrôler l’agent via un chat textuel, une conversation vocale ou en dessinant directement sur l’écran du jeu. Le système comprend les instructions formulées dans différentes langues et peut même interpréter correctement des émojis pour accomplir des tâches.

Jane Wang, chercheuse senior chez DeepMind, a déclaré lors d’un entretien avec TechCrunch que les applications de SIMA 2 vont bien au-delà du jeu vidéo. L’équipe de recherche considère ce travail comme une étape cruciale vers la création d’agents plus généraux et l’amélioration des robots du monde réel.

Un pont vers la robotique

DeepMind voit en SIMA 2 une pierre angulaire pour développer la prochaine génération d’agents capables d’exécuter des tâches ouvertes dans des environnements bien plus complexes qu’un simple navigateur web. À long terme, cette technologie vise à piloter des systèmes robotiques dans le monde réel.

Frederic Besse, ingénieur chercheur senior, a précisé lors de la conférence de presse que SIMA 2 doit être considéré comme un décideur de haut niveau, et non comme un contrôleur de mouvements bas niveau. « Du point de vue de la robotique, il résout la question du “quoi faire et pourquoi”, et non celle du “comment contrôler le couple articulaire”. » Cette approche hiérarchique reflète la manière dont de nombreux laboratoires conçoivent actuellement leurs systèmes : une couche de planification en amont, et des couches de perception et de contrôle en aval.

Les compétences acquises par SIMA 2 — navigation, utilisation d’outils, exécution collaborative de tâches — constituent précisément les blocs fondamentaux nécessaires aux futurs compagnons robotiques du monde réel.

Limites actuelles et orientations futures

Malgré ces avancées notables, SIMA 2 fait toujours face à certains défis. Il éprouve encore des difficultés dans les tâches complexes à long terme nécessitant un raisonnement multi-étapes important et une vérification rigoureuse des objectifs. De plus, sa mémoire interactive reste relativement limitée, obligeant le système à utiliser une fenêtre contextuelle restreinte afin de garantir des interactions à faible latence. L’exécution précise d’opérations de bas niveau via une interface de clavier et souris virtuels, ainsi qu’une compréhension visuelle robuste de scènes 3D complexes, demeurent des défis ouverts que la communauté scientifique continue d’explorer activement.

Approche de développement

DeepMind insiste particulièrement sur son engagement en faveur d’un développement responsable de SIMA 2. L’équipe collabore étroitement avec son groupe « Développement et Innovation Responsables » et publie SIMA 2 sous forme d’une prévisualisation limitée destinée exclusivement à un petit nombre de chercheurs universitaires et de développeurs de jeux. Cette approche vise à recueillir des retours critiques et des perspectives interdisciplinaires, tout en renforçant la compréhension collective des risques potentiels et des mesures appropriées pour les atténuer.

Selon les informations officielles, un rapport technique complet sera publié prochainement. Ce projet a bénéficié du soutien de plusieurs studios de développement de jeux, notamment Coffee Stain, Hello Games et Thunderful Games, et a été entraîné et évalué sur divers titres commerciaux tels que No Man’s Sky, Valheim, Goat Simulator 3 et Teardown.

Le lancement de SIMA 2 marque une transition majeure dans la recherche en IA, passant des systèmes spécialisés aux agents généraux, et pose des fondations solides pour l’évolution future des assistants numériques et des robots physiques intelligents.