Revolución inteligente: el sistema de IA de doble modelo de Google DeepMind otorga a los robots capacidad de razonamiento y búsqueda
Resumen
Google DeepMind ha lanzado recientemente sus nuevos modelos Gemini Robotics 1.5 y Gemini Robotics-ER 1.5, marcando la primera vez que la tecnología de IA se adentra verdaderamente en el mundo de los robots físicos. Estos dos modelos adoptan un diseño de arquitectura dual, lo que permite a los robots no solo ejecutar instrucciones, sino también razonar, planificar y usar herramientas de forma proactiva, logrando capacidades de interacción más avanzadas con el mundo físico.
Arquitectura Dual de Modelos Revolucionaria
Gemini Robotics-ER 1.5 y Gemini Robotics 1.5 emplean un diseño innovador de arquitectura dual, trabajando en conjunto para formar un potente sistema de IA para robots. Gemini Robotics-ER 1.5 actúa como el "cerebro de alto nivel", responsable de la planificación y la toma de decisiones en el espacio físico, mientras que Gemini Robotics 1.5 traduce la visión y la comprensión del lenguaje en acciones concretas. Esta arquitectura permite a los robots ejecutar tareas complejas de varios pasos, como clasificar la basura según las reglas de reciclaje locales encontradas en línea, o empacar una maleta basándose en el pronóstico del tiempo.
Un Cambio Significativo: De la Reacción al Razonamiento
Carolina Parada, directora de robótica de Google DeepMind, señala que el nuevo sistema permite a las máquinas "pensar varios pasos por adelantado", en lugar de centrarse únicamente en un solo paso. A diferencia de las generaciones anteriores que solo podían ejecutar instrucciones simples, el nuevo sistema hace que el comportamiento de los robots se acerque más a la forma de pensar humana: planificar primero y luego actuar.
Capacidad de Aprendizaje entre Robots
Otro cambio revolucionario que trae esta actualización es la función de "aprendizaje entre robots". DeepMind demostró que las habilidades aprendidas por el robot de doble brazo ALOHA2 pueden aplicarse a los robots Franka o al robot humanoide Apollo de Apptronik sin necesidad de configuración adicional. Esto significa que el mismo conjunto de modelos puede controlar diferentes tipos de robots y transferir experiencias, acelerando significativamente el ritmo de desarrollo de la tecnología robótica.
Búsqueda Web Inteligente y Uso de Herramientas
Gemini Robotics-ER 1.5 es capaz de evaluar desafíos complejos, invocar herramientas de forma nativa (como la Búsqueda de Google) para encontrar información y crear planes detallados paso a paso para superar problemas. Esto permite a los robots buscar información y aplicarla a tareas prácticas como lo haría un humano, ampliando enormemente el alcance de sus capacidades.
Mejora de la Seguridad y la Transparencia
DeepMind ha puesto la seguridad en el centro de su proceso de desarrollo. Ambos modelos están equipados con salvaguardias y funciones de interpretabilidad, lo que hace que el comportamiento del robot sea más predecible y explicable. Google también ha lanzado una versión actualizada del benchmark ASIMOV, utilizada para evaluar y mejorar la seguridad semántica, en la que Gemini Robotics-ER 1.5 demostró un rendimiento de vanguardia en la evaluación de seguridad.
Disponibilidad para Desarrolladores
Esta actualización ya está disponible para desarrolladores: Gemini Robotics-ER 1.5 se puede probar a través de la API de Gemini en Google AI Studio, mientras que Gemini Robotics 1.5 está actualmente disponible solo para socios seleccionados. Esto fomentará una innovación y un desarrollo de aplicaciones robóticas más amplios.
Un Hito Importante Hacia la Inteligencia Artificial General
Google DeepMind describe este lanzamiento como un paso importante hacia la resolución de la Inteligencia Artificial General (AGI) en el mundo físico. Al introducir capacidades de proactividad, Google está yendo más allá de los modelos que solo responden a comandos, creando sistemas que pueden realmente razonar, planificar, usar herramientas de forma proactiva y generalizar.
Impacto en la Industria y Perspectivas Futuras
Esta tecnología innovadora promete remodelar múltiples industrias. En el sector de la salud, los robots asistentes pueden brindar ayuda según las necesidades de los diferentes pacientes; en entornos domésticos, pueden convertirse en asistentes personales más inteligentes. Aunque la robótica aún se encuentra en sus primeras etapas, este lanzamiento indica que el futuro no se trata solo de una IA más inteligente, sino de una IA capaz de vivir y actuar junto a nosotros.
A medida que Google DeepMind continúa avanzando en la fusión de la robótica y la inteligencia artificial, podemos esperar la aparición de más aplicaciones innovadoras, reduciendo aún más la brecha entre la inteligencia virtual y el mundo físico.