Agentes GUI fundacionales centrados en el mundo real con interacción de usuario nativa, integración de herramientas MCP y capacidades de colaboración dispositivo-nube
MAI-UI: Agentes Fundacionales de GUI Centrados en el Mundo Real
Resumen
MAI-UI es una familia integral de agentes fundacionales de GUI desarrollados por Tongyi Lab de Alibaba que abarca todo el espectro de tamaños de modelos, desde 2B hasta 235B-A22B parámetros. El proyecto representa un avance significativo para hacer que los agentes de GUI sean prácticos para el despliegue en el mundo real a través de enfoques innovadores en la interacción del usuario, la integración de herramientas y la arquitectura de despliegue.
Características e Innovaciones Clave
1. Modelos Fundacionales Multi-Escala
- Variantes de Modelo: 2B, 8B, 32B y 235B-A22B parámetros
- Arquitectura Base: Construido sobre modelos de lenguaje grandes multimodales Qwen3-VL
- Enfoque de Entrenamiento: Ajuste fino supervisado conjunto y aprendizaje por refuerzo
- Flexibilidad de Despliegue: Adecuado para diversas restricciones de hardware y requisitos de rendimiento
2. Espacio de Acción Extendido
MAI-UI introduce tres capacidades críticas más allá de las operaciones tradicionales de GUI:
Interacción Agente-Usuario
- Acción
ask_user: Solicita proactivamente aclaraciones para instrucciones ambiguas - Conversación dinámica: Maneja requisitos de usuario incompletos o poco claros
- Aplicabilidad en el mundo real: Aborda el escenario común donde las instrucciones del usuario carecen de especificidad
Integración de Herramientas MCP
- Acción
mcp_call: Invocación directa de herramientas externas a través del Protocolo de Contexto del Modelo - Operaciones a nivel de API: Alternativas eficientes a manipulaciones complejas de UI
- Funcionalidad mejorada: Acceso a servicios como mapeo, gestión de archivos y recuperación de datos
Colaboración Dispositivo-Nube
- Enrutamiento inteligente: Selección dinámica entre ejecución en dispositivo y en la nube
- Preservación de la privacidad: Mantiene las operaciones sensibles localmente mientras aprovecha la nube para tareas complejas
- Optimización de costos: Reduce las llamadas a la API de la nube en más del 40%
3. Pipeline de Datos Auto-Evolutivo
- Generación autónoma de datos: Mejora continua del corpus de entrenamiento
- Colaboración multi-agente: Combinación de anotaciones humanas y trayectorias generadas por el modelo
- Filtrado de calidad: Los modelos de juicio evalúan y retienen rutas de ejecución de alta calidad
- Adaptación dinámica: Los datos de entrenamiento evolucionan con las capacidades del modelo
4. Aprendizaje por Refuerzo en Línea a Gran Escala
- Paralelización masiva: Hasta 512 entornos Android paralelos
- Contexto extendido: Soporte para hasta 50 pasos de entorno
- Mejoras significativas: +5.2 puntos por escalado del entorno, +4.3 puntos por aumento del presupuesto de pasos
- Robustez en el mundo real: Entrenamiento en entornos dinámicos con pop-ups, anuncios y cambios de UI
Logros de Rendimiento
Benchmarks de Grounding de GUI
- ScreenSpot-Pro: 73.5% de precisión (supera a Gemini-3-Pro y Seed1.8)
- MMBench GUI L2: 91.3% de precisión
- OSWorld-G: 70.9% de precisión
- UI-Vision: 49.2% de precisión
Benchmarks de Navegación Móvil
- AndroidWorld: 76.7% de tasa de éxito (nuevo SOTA, superando a UI-Tars-2, Gemini-2.5-Pro y Seed1.8)
- MobileWorld: 41.7% de tasa de éxito (mejora de 20.8 puntos sobre las bases más fuertes)
Resultados de Colaboración Dispositivo-Nube
- Mejora del rendimiento: 33% de mejora en el rendimiento en el dispositivo
- Reducción de costos: Más del 40% de reducción en llamadas a modelos en la nube
- Preservación de la privacidad: 40.5% de las tareas completadas completamente en el dispositivo
Arquitectura Técnica
Fundación del Modelo
- Backbone: Arquitectura multimodal Qwen3-VL
- Modalidades de entrada: Instrucciones en lenguaje natural y capturas de pantalla de UI renderizadas
- Salida: Acciones estructuradas para dispositivos Android en vivo
- Espacio de acción: Clic, deslizamiento, entrada de texto, botones del sistema, además de capacidades de interacción mejoradas
Metodología de Entrenamiento
- Ajuste Fino Supervisado: Entrenamiento inicial en datos curados de grounding y navegación de GUI
- Aprendizaje por Refuerzo en Línea: Mejora continua a través de la interacción con entornos en vivo
- Pipeline auto-evolutivo: Generación autónoma de datos y mejora de la calidad
- Integración multidimensional: Interacciones del usuario, llamadas a herramientas MCP y operaciones tradicionales de GUI
Sistema de Despliegue
- Arquitectura híbrida: Integración fluida de modelos en dispositivo y en la nube
- Enrutamiento consciente de la tarea: Toma de decisiones inteligente basada en la complejidad de la tarea y los requisitos de privacidad
- Diseño con privacidad primero: Las operaciones sensibles permanecen locales mientras que las tareas complejas aprovechan las capacidades de la nube
- Optimización de costos: Uso eficiente de recursos a través de la distribución inteligente de la carga de trabajo
Aplicaciones en el Mundo Real
Uso Doméstico y Personal
- Compras inteligentes: Sugerencias proactivas basadas en la integración del calendario
- Automatización de tareas: Flujos de trabajo complejos multi-aplicación para actividades diarias
- Asistencia contextual: Comprensión de la intención del usuario a través de conversación natural
Uso Profesional y de Oficina
- Gestión de documentos: Manejo y compartición inteligente de archivos
- Asistencia de comunicación: Composición de correos electrónicos con conciencia contextual
- Integración entre aplicaciones: Flujos de trabajo fluidos a través de múltiples aplicaciones
Servicios de Navegación y Ubicación
- Planificación de rutas: Integración con servicios de mapeo a través de herramientas MCP
- Sugerencias basadas en la ubicación: Recomendaciones sensibles al contexto
- Transporte multimodal: Soporte para varios métodos de transporte
Especificaciones Técnicas
Requisitos
- vLLM: Versión ≥0.11.0
- Transformers: Versión ≥4.57.0
- Python: Compatible con el ecosistema ML estándar
- Hardware: Escalable desde dispositivos móviles hasta infraestructura en la nube
Modelos Disponibles
- MAI-UI-2B: Modelo ligero para entornos con recursos limitados
- MAI-UI-8B: Rendimiento y eficiencia equilibrados
- Variantes más grandes: 32B y 235B-A22B para máxima capacidad
Opciones de Integración
- Servicio API: Interfaz compatible con OpenAI a través de vLLM
- Integración directa: SDK de Python para aplicaciones personalizadas
- Despliegue en contenedor: Soporte Docker para despliegue escalable
Impacto de la Investigación
Liderazgo en Benchmarks
MAI-UI establece nuevos estados del arte en múltiples benchmarks autorizados, demostrando tanto avance teórico como aplicabilidad práctica.
Contribuciones Metodológicas
- Colaboración dispositivo-nube: Nueva arquitectura de despliegue para agentes de GUI
- Datos auto-evolutivos: Mejora autónoma de conjuntos de datos de entrenamiento
- Modelo de interacción extendido: Soporte nativo para diálogo de usuario e integración de herramientas
Aplicaciones Industriales
El proyecto aborda desafíos de despliegue en el mundo real que históricamente han limitado la adopción de agentes de GUI, haciéndolo adecuado para entornos de producción.
Compromiso de Código Abierto
Licencia
- Licencia Apache 2.0: Licencia permisiva para uso comercial y de investigación
- Componentes de terceros: Claramente documentados con las atribuciones apropiadas
- Contribución comunitaria: Modelo de desarrollo abierto que fomenta la colaboración
Recursos Disponibles
- Modelos: MAI-UI-2B y MAI-UI-8B en Hugging Face
- Código: Implementación completa en GitHub
- Documentación: Informes técnicos completos y guías de uso
- Benchmarks: Benchmark MobileWorld para evaluación
Direcciones Futuras
Extensiones de Investigación
- Variantes de modelos más grandes: Desarrollo continuo de modelos 32B y 235B
- Soporte multiplataforma: Extensión más allá de Android a plataformas iOS y de escritorio
- Integración de herramientas mejorada: Ecosistema de herramientas MCP más amplio
Aplicaciones Comerciales
- Despliegue empresarial: Integración con flujos de trabajo empresariales
- Soluciones de accesibilidad: Asistencia para usuarios con discapacidades
- Mejora de la productividad: Automatización avanzada para trabajadores del conocimiento
Información de Citación
@misc{zhou2025maiuitechnicalreportrealworld,
title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
year={2025},
eprint={2512.22047},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2512.22047}
}
Información de Contacto
- Líder del Proyecto: Hanzhang Zhou (hanzhang.zhou@alibaba-inc.com)
- Líder Técnico: Xu Zhang (hanguang.zx@alibaba-inc.com)
- Director de Investigación: Yue Wang (yue.w@alibaba-inc.com)
- Institución: Tongyi Lab, Alibaba Group
Recursos Adicionales
- Sitio Web del Proyecto: https://tongyi-mai.github.io/MAI-UI/
- Repositorio de GitHub: https://github.com/Tongyi-MAI/MAI-UI
- Modelos de Hugging Face: https://huggingface.co/Tongyi-MAI
- Artículo Técnico: https://arxiv.org/abs/2512.22047
- Benchmark MobileWorld: https://github.com/Tongyi-MAI/MobileWorld