Agentes GUI fundacionales centrados en el mundo real con interacción de usuario nativa, integración de herramientas MCP y capacidades de colaboración dispositivo-nube

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI: Agentes Fundacionales de GUI Centrados en el Mundo Real

Resumen

MAI-UI es una familia integral de agentes fundacionales de GUI desarrollados por Tongyi Lab de Alibaba que abarca todo el espectro de tamaños de modelos, desde 2B hasta 235B-A22B parámetros. El proyecto representa un avance significativo para hacer que los agentes de GUI sean prácticos para el despliegue en el mundo real a través de enfoques innovadores en la interacción del usuario, la integración de herramientas y la arquitectura de despliegue.

Características e Innovaciones Clave

1. Modelos Fundacionales Multi-Escala

  • Variantes de Modelo: 2B, 8B, 32B y 235B-A22B parámetros
  • Arquitectura Base: Construido sobre modelos de lenguaje grandes multimodales Qwen3-VL
  • Enfoque de Entrenamiento: Ajuste fino supervisado conjunto y aprendizaje por refuerzo
  • Flexibilidad de Despliegue: Adecuado para diversas restricciones de hardware y requisitos de rendimiento

2. Espacio de Acción Extendido

MAI-UI introduce tres capacidades críticas más allá de las operaciones tradicionales de GUI:

Interacción Agente-Usuario

  • Acción ask_user: Solicita proactivamente aclaraciones para instrucciones ambiguas
  • Conversación dinámica: Maneja requisitos de usuario incompletos o poco claros
  • Aplicabilidad en el mundo real: Aborda el escenario común donde las instrucciones del usuario carecen de especificidad

Integración de Herramientas MCP

  • Acción mcp_call: Invocación directa de herramientas externas a través del Protocolo de Contexto del Modelo
  • Operaciones a nivel de API: Alternativas eficientes a manipulaciones complejas de UI
  • Funcionalidad mejorada: Acceso a servicios como mapeo, gestión de archivos y recuperación de datos

Colaboración Dispositivo-Nube

  • Enrutamiento inteligente: Selección dinámica entre ejecución en dispositivo y en la nube
  • Preservación de la privacidad: Mantiene las operaciones sensibles localmente mientras aprovecha la nube para tareas complejas
  • Optimización de costos: Reduce las llamadas a la API de la nube en más del 40%

3. Pipeline de Datos Auto-Evolutivo

  • Generación autónoma de datos: Mejora continua del corpus de entrenamiento
  • Colaboración multi-agente: Combinación de anotaciones humanas y trayectorias generadas por el modelo
  • Filtrado de calidad: Los modelos de juicio evalúan y retienen rutas de ejecución de alta calidad
  • Adaptación dinámica: Los datos de entrenamiento evolucionan con las capacidades del modelo

4. Aprendizaje por Refuerzo en Línea a Gran Escala

  • Paralelización masiva: Hasta 512 entornos Android paralelos
  • Contexto extendido: Soporte para hasta 50 pasos de entorno
  • Mejoras significativas: +5.2 puntos por escalado del entorno, +4.3 puntos por aumento del presupuesto de pasos
  • Robustez en el mundo real: Entrenamiento en entornos dinámicos con pop-ups, anuncios y cambios de UI

Logros de Rendimiento

Benchmarks de Grounding de GUI

  • ScreenSpot-Pro: 73.5% de precisión (supera a Gemini-3-Pro y Seed1.8)
  • MMBench GUI L2: 91.3% de precisión
  • OSWorld-G: 70.9% de precisión
  • UI-Vision: 49.2% de precisión

Benchmarks de Navegación Móvil

  • AndroidWorld: 76.7% de tasa de éxito (nuevo SOTA, superando a UI-Tars-2, Gemini-2.5-Pro y Seed1.8)
  • MobileWorld: 41.7% de tasa de éxito (mejora de 20.8 puntos sobre las bases más fuertes)

Resultados de Colaboración Dispositivo-Nube

  • Mejora del rendimiento: 33% de mejora en el rendimiento en el dispositivo
  • Reducción de costos: Más del 40% de reducción en llamadas a modelos en la nube
  • Preservación de la privacidad: 40.5% de las tareas completadas completamente en el dispositivo

Arquitectura Técnica

Fundación del Modelo

  • Backbone: Arquitectura multimodal Qwen3-VL
  • Modalidades de entrada: Instrucciones en lenguaje natural y capturas de pantalla de UI renderizadas
  • Salida: Acciones estructuradas para dispositivos Android en vivo
  • Espacio de acción: Clic, deslizamiento, entrada de texto, botones del sistema, además de capacidades de interacción mejoradas

Metodología de Entrenamiento

  1. Ajuste Fino Supervisado: Entrenamiento inicial en datos curados de grounding y navegación de GUI
  2. Aprendizaje por Refuerzo en Línea: Mejora continua a través de la interacción con entornos en vivo
  3. Pipeline auto-evolutivo: Generación autónoma de datos y mejora de la calidad
  4. Integración multidimensional: Interacciones del usuario, llamadas a herramientas MCP y operaciones tradicionales de GUI

Sistema de Despliegue

  • Arquitectura híbrida: Integración fluida de modelos en dispositivo y en la nube
  • Enrutamiento consciente de la tarea: Toma de decisiones inteligente basada en la complejidad de la tarea y los requisitos de privacidad
  • Diseño con privacidad primero: Las operaciones sensibles permanecen locales mientras que las tareas complejas aprovechan las capacidades de la nube
  • Optimización de costos: Uso eficiente de recursos a través de la distribución inteligente de la carga de trabajo

Aplicaciones en el Mundo Real

Uso Doméstico y Personal

  • Compras inteligentes: Sugerencias proactivas basadas en la integración del calendario
  • Automatización de tareas: Flujos de trabajo complejos multi-aplicación para actividades diarias
  • Asistencia contextual: Comprensión de la intención del usuario a través de conversación natural

Uso Profesional y de Oficina

  • Gestión de documentos: Manejo y compartición inteligente de archivos
  • Asistencia de comunicación: Composición de correos electrónicos con conciencia contextual
  • Integración entre aplicaciones: Flujos de trabajo fluidos a través de múltiples aplicaciones

Servicios de Navegación y Ubicación

  • Planificación de rutas: Integración con servicios de mapeo a través de herramientas MCP
  • Sugerencias basadas en la ubicación: Recomendaciones sensibles al contexto
  • Transporte multimodal: Soporte para varios métodos de transporte

Especificaciones Técnicas

Requisitos

  • vLLM: Versión ≥0.11.0
  • Transformers: Versión ≥4.57.0
  • Python: Compatible con el ecosistema ML estándar
  • Hardware: Escalable desde dispositivos móviles hasta infraestructura en la nube

Modelos Disponibles

  • MAI-UI-2B: Modelo ligero para entornos con recursos limitados
  • MAI-UI-8B: Rendimiento y eficiencia equilibrados
  • Variantes más grandes: 32B y 235B-A22B para máxima capacidad

Opciones de Integración

  • Servicio API: Interfaz compatible con OpenAI a través de vLLM
  • Integración directa: SDK de Python para aplicaciones personalizadas
  • Despliegue en contenedor: Soporte Docker para despliegue escalable

Impacto de la Investigación

Liderazgo en Benchmarks

MAI-UI establece nuevos estados del arte en múltiples benchmarks autorizados, demostrando tanto avance teórico como aplicabilidad práctica.

Contribuciones Metodológicas

  • Colaboración dispositivo-nube: Nueva arquitectura de despliegue para agentes de GUI
  • Datos auto-evolutivos: Mejora autónoma de conjuntos de datos de entrenamiento
  • Modelo de interacción extendido: Soporte nativo para diálogo de usuario e integración de herramientas

Aplicaciones Industriales

El proyecto aborda desafíos de despliegue en el mundo real que históricamente han limitado la adopción de agentes de GUI, haciéndolo adecuado para entornos de producción.

Compromiso de Código Abierto

Licencia

  • Licencia Apache 2.0: Licencia permisiva para uso comercial y de investigación
  • Componentes de terceros: Claramente documentados con las atribuciones apropiadas
  • Contribución comunitaria: Modelo de desarrollo abierto que fomenta la colaboración

Recursos Disponibles

  • Modelos: MAI-UI-2B y MAI-UI-8B en Hugging Face
  • Código: Implementación completa en GitHub
  • Documentación: Informes técnicos completos y guías de uso
  • Benchmarks: Benchmark MobileWorld para evaluación

Direcciones Futuras

Extensiones de Investigación

  • Variantes de modelos más grandes: Desarrollo continuo de modelos 32B y 235B
  • Soporte multiplataforma: Extensión más allá de Android a plataformas iOS y de escritorio
  • Integración de herramientas mejorada: Ecosistema de herramientas MCP más amplio

Aplicaciones Comerciales

  • Despliegue empresarial: Integración con flujos de trabajo empresariales
  • Soluciones de accesibilidad: Asistencia para usuarios con discapacidades
  • Mejora de la productividad: Automatización avanzada para trabajadores del conocimiento

Información de Citación

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

Información de Contacto

Recursos Adicionales

Star History Chart