DeepMind lanza SIMA 2: un agente de IA en mundos virtuales potenciado por Gemini logra avances en razonamiento y aprendizaje autónomo

November 15, 2025
Google DeepMind
6 min

Resumen

Google DeepMind lanzó SIMA 2 (Scalable Instructable Multiworld Agent, Agente Multimundo Escalable e Instruible) el 13 de noviembre de 2025 (hora del este de EE. UU.), un agente de inteligencia artificial de nueva generación impulsado por el modelo Gemini. Este sistema no solo puede ejecutar instrucciones en mundos virtuales 3D, sino que también posee capacidades de razonamiento, diálogo y autoaprendizaje, marcando un avance significativo en la investigación hacia la inteligencia artificial general (AGI). La tasa de finalización de tareas de SIMA 2 ha mejorado notablemente respecto a su predecesor y puede operar incluso en entornos de juegos nunca antes vistos durante su entrenamiento, sentando las bases para futuras tecnologías robóticas.


Avance técnico: de seguir instrucciones a tomar decisiones mediante razonamiento

La primera versión de SIMA se lanzó en marzo de 2024 y era capaz de ejecutar más de 600 habilidades básicas en múltiples videojuegos comerciales, como “girar a la izquierda”, “subir una escalera” o “abrir el mapa”. El sistema operaba “observando” la pantalla y utilizando un teclado y ratón virtuales, imitando así la forma en que juegan los humanos.

SIMA 2 logra un salto cualitativo gracias a la integración del modelo Gemini 2.5 Flash-Lite. Según explicó Joe Marino, científico investigador sénior de DeepMind, durante la presentación ante los medios, SIMA 2 representa un “cambio y mejora abruptos” respecto a su versión anterior. Ya no se limita a responder a órdenes, sino que comprende objetivos de alto nivel, realiza razonamientos complejos y comunica al usuario sus intenciones y los pasos que planea seguir.

En pruebas realizadas, SIMA 2 superó ampliamente a su predecesor. Frente a tareas complejas, SIMA 1 alcanzaba una tasa de éxito del 31 %, mientras que los jugadores humanos llegaban al 71 %. SIMA 2 redujo considerablemente esta brecha, obteniendo en múltiples tareas de evaluación un rendimiento cercano al nivel humano.

Capacidad de generalización entre entornos

Una de las características más destacadas de SIMA 2 es su notable capacidad de generalización. El sistema funciona no solo en los ocho videojuegos comerciales en los que fue entrenado —incluidos No Man’s Sky, Valheim y Goat Simulator 3—, sino que también puede ejecutar tareas con éxito en entornos de juegos completamente nuevos.

En pruebas realizadas con el juego de supervivencia vikingo ASKA y con MineDojo (una versión de Minecraft diseñada específicamente para investigación), SIMA 2 demostró una sólida capacidad de aprendizaje por transferencia. Por ejemplo, pudo aplicar el concepto de “minería” aprendido en un juego a escenarios de “recolección” en otro, lo que demuestra una capacidad clave para lograr una cognición similar a la humana: la transferencia conceptual.

Más impresionante aún es que, al combinarse con Genie 3 —otro logro de DeepMind capaz de generar mundos simulados en 3D en tiempo real a partir de una sola imagen o indicación textual—, SIMA 2 puede ubicarse rápidamente en entornos virtuales completamente nuevos, interpretar instrucciones y realizar acciones significativas.

Mecanismo de autorrefinamiento

La innovación revolucionaria de SIMA 2 radica en su capacidad de autoaprendizaje. A diferencia de SIMA 1, que dependía totalmente de datos de juego generados por humanos, SIMA 2 utiliza demostraciones humanas únicamente como punto de partida en su fase inicial de entrenamiento, tras lo cual pasa a un modo autónomo de aprendizaje.

El sistema emplea otro modelo Gemini para crear nuevas tareas, mientras que un modelo de recompensa independiente evalúa el desempeño del agente. Con estos datos generados autónomamente, SIMA 2 aprende de sus propios errores mediante ensayo y error, enseñándose esencialmente nuevos comportamientos guiado por retroalimentación de inteligencia artificial, sin depender de intervención humana.

Este ciclo de autorrefinamiento allana el camino para el desarrollo futuro de inteligencias artificiales capaces de aprender y evolucionar con mínima intervención humana, convirtiéndose en agentes abiertos dentro del campo de la IA encarnada (embodied AI).

Interacción multimodal

SIMA 2 admite múltiples formas de interacción: los usuarios pueden controlarlo mediante chat de texto, conversación por voz o dibujando directamente sobre la pantalla del juego. El sistema comprende instrucciones en distintos idiomas e incluso interpreta correctamente el significado de emojis para ejecutar tareas.

Jane Wang, científica investigadora sénior de DeepMind, declaró en una entrevista con TechCrunch que las aplicaciones de SIMA 2 van mucho más allá del ámbito de los videojuegos. El equipo considera que este trabajo constituye un paso fundamental hacia agentes más generales y robots más eficaces en el mundo real.

Puente hacia la robótica

DeepMind considera a SIMA 2 como una pieza clave para desarrollar la próxima generación de agentes inteligentes capaces de realizar tareas abiertas en entornos más complejos que un navegador web. A largo plazo, esta tecnología busca impulsar sistemas robóticos del mundo real.

Frederic Besse, ingeniero investigador sénior de DeepMind, explicó durante la presentación que SIMA 2 debe entenderse como un tomador de decisiones de alto nivel, no como un controlador de movimientos de bajo nivel. “Desde la perspectiva de la robótica, resuelve el ‘qué hacer y por qué’, no el ‘cómo controlar el torque de las articulaciones’”. Esta arquitectura jerárquica refleja cómo muchos laboratorios construyen actualmente sus sistemas: una capa de planificación en la parte superior y capas de percepción y control en la inferior.

Las habilidades que SIMA 2 aprende —navegación, uso de herramientas y ejecución colaborativa de tareas— constituyen los bloques fundamentales necesarios para los futuros robots compañeros del mundo real.

Limitaciones actuales y direcciones futuras

A pesar de sus avances notables, SIMA 2 todavía enfrenta ciertos desafíos. El sistema tiene dificultades con tareas complejas a largo plazo que requieren razonamiento multietapa extenso y verificación constante de objetivos. Además, su memoria de interacción es relativamente corta, ya que debe operar con una ventana contextual limitada para garantizar interacciones de baja latencia. La ejecución precisa de operaciones de bajo nivel mediante interfaces de teclado y ratón virtual, así como la comprensión visual robusta de escenas 3D complejas, siguen siendo retos abiertos que todo el campo continúa explorando.

Ruta de desarrollo

DeepMind ha subrayado especialmente su compromiso con un desarrollo responsable de SIMA 2. El equipo ha colaborado estrechamente con su grupo de Desarrollo e Innovación Responsables y ha lanzado SIMA 2 inicialmente como una vista previa limitada para investigación, otorgando acceso anticipado únicamente a un pequeño número de académicos y desarrolladores de videojuegos. Este enfoque busca recopilar retroalimentación crítica y perspectivas interdisciplinarias, al tiempo que se profundiza en la comprensión de los riesgos potenciales y sus medidas de mitigación adecuadas mientras se explora este nuevo dominio.

Según información oficial, el informe técnico completo se publicará próximamente. El proyecto contó con el apoyo de múltiples estudios de desarrollo de videojuegos, incluidos Coffee Stain, Hello Games y Thunderful Games, y fue entrenado y evaluado en diversos títulos comerciales como No Man’s Sky, Valheim, Goat Simulator 3 y Teardown.

El lanzamiento de SIMA 2 marca un cambio trascendental en la investigación de IA, pasando de sistemas especializados a agentes generales, y sienta bases sólidas para el futuro desarrollo de asistentes digitales y robots físicos más inteligentes.