Tongyi-MAI/MAI-UI View GitHub Homepage for Latest Official Releases

Agentes GUI fundacionales centrados en el mundo real con interacción de usuario nativa, integración de herramientas MCP y capacidades de colaboración dispositivo-nube

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI: Agentes Fundacionales de GUI Centrados en el Mundo Real

Resumen

MAI-UI es una familia integral de agentes fundacionales de GUI desarrollados por Tongyi Lab de Alibaba que abarca todo el espectro de tamaños de modelos, desde 2B hasta 235B-A22B parámetros. El proyecto representa un avance significativo para hacer que los agentes de GUI sean prácticos para el despliegue en el mundo real a través de enfoques innovadores en la interacción del usuario, la integración de herramientas y la arquitectura de despliegue.

Características e Innovaciones Clave

1. Modelos Fundacionales Multi-Escala

Variantes de Modelo: 2B, 8B, 32B y 235B-A22B parámetros
Arquitectura Base: Construido sobre modelos de lenguaje grandes multimodales Qwen3-VL
Enfoque de Entrenamiento: Ajuste fino supervisado conjunto y aprendizaje por refuerzo
Flexibilidad de Despliegue: Adecuado para diversas restricciones de hardware y requisitos de rendimiento

2. Espacio de Acción Extendido

MAI-UI introduce tres capacidades críticas más allá de las operaciones tradicionales de GUI:

Interacción Agente-Usuario

Acción ask_user: Solicita proactivamente aclaraciones para instrucciones ambiguas
Conversación dinámica: Maneja requisitos de usuario incompletos o poco claros
Aplicabilidad en el mundo real: Aborda el escenario común donde las instrucciones del usuario carecen de especificidad

Integración de Herramientas MCP

Acción mcp_call: Invocación directa de herramientas externas a través del Protocolo de Contexto del Modelo
Operaciones a nivel de API: Alternativas eficientes a manipulaciones complejas de UI
Funcionalidad mejorada: Acceso a servicios como mapeo, gestión de archivos y recuperación de datos

Colaboración Dispositivo-Nube

Enrutamiento inteligente: Selección dinámica entre ejecución en dispositivo y en la nube
Preservación de la privacidad: Mantiene las operaciones sensibles localmente mientras aprovecha la nube para tareas complejas
Optimización de costos: Reduce las llamadas a la API de la nube en más del 40%

3. Pipeline de Datos Auto-Evolutivo

Generación autónoma de datos: Mejora continua del corpus de entrenamiento
Colaboración multi-agente: Combinación de anotaciones humanas y trayectorias generadas por el modelo
Filtrado de calidad: Los modelos de juicio evalúan y retienen rutas de ejecución de alta calidad
Adaptación dinámica: Los datos de entrenamiento evolucionan con las capacidades del modelo

4. Aprendizaje por Refuerzo en Línea a Gran Escala

Paralelización masiva: Hasta 512 entornos Android paralelos
Contexto extendido: Soporte para hasta 50 pasos de entorno
Mejoras significativas: +5.2 puntos por escalado del entorno, +4.3 puntos por aumento del presupuesto de pasos
Robustez en el mundo real: Entrenamiento en entornos dinámicos con pop-ups, anuncios y cambios de UI

Logros de Rendimiento

Benchmarks de Grounding de GUI

ScreenSpot-Pro: 73.5% de precisión (supera a Gemini-3-Pro y Seed1.8)
MMBench GUI L2: 91.3% de precisión
OSWorld-G: 70.9% de precisión
UI-Vision: 49.2% de precisión

Benchmarks de Navegación Móvil

AndroidWorld: 76.7% de tasa de éxito (nuevo SOTA, superando a UI-Tars-2, Gemini-2.5-Pro y Seed1.8)
MobileWorld: 41.7% de tasa de éxito (mejora de 20.8 puntos sobre las bases más fuertes)

Resultados de Colaboración Dispositivo-Nube

Mejora del rendimiento: 33% de mejora en el rendimiento en el dispositivo
Reducción de costos: Más del 40% de reducción en llamadas a modelos en la nube
Preservación de la privacidad: 40.5% de las tareas completadas completamente en el dispositivo

Arquitectura Técnica

Fundación del Modelo

Backbone: Arquitectura multimodal Qwen3-VL
Modalidades de entrada: Instrucciones en lenguaje natural y capturas de pantalla de UI renderizadas
Salida: Acciones estructuradas para dispositivos Android en vivo
Espacio de acción: Clic, deslizamiento, entrada de texto, botones del sistema, además de capacidades de interacción mejoradas

Metodología de Entrenamiento

Ajuste Fino Supervisado: Entrenamiento inicial en datos curados de grounding y navegación de GUI
Aprendizaje por Refuerzo en Línea: Mejora continua a través de la interacción con entornos en vivo
Pipeline auto-evolutivo: Generación autónoma de datos y mejora de la calidad
Integración multidimensional: Interacciones del usuario, llamadas a herramientas MCP y operaciones tradicionales de GUI

Sistema de Despliegue

Arquitectura híbrida: Integración fluida de modelos en dispositivo y en la nube
Enrutamiento consciente de la tarea: Toma de decisiones inteligente basada en la complejidad de la tarea y los requisitos de privacidad
Diseño con privacidad primero: Las operaciones sensibles permanecen locales mientras que las tareas complejas aprovechan las capacidades de la nube
Optimización de costos: Uso eficiente de recursos a través de la distribución inteligente de la carga de trabajo

Aplicaciones en el Mundo Real

Uso Doméstico y Personal

Compras inteligentes: Sugerencias proactivas basadas en la integración del calendario
Automatización de tareas: Flujos de trabajo complejos multi-aplicación para actividades diarias
Asistencia contextual: Comprensión de la intención del usuario a través de conversación natural

Uso Profesional y de Oficina

Gestión de documentos: Manejo y compartición inteligente de archivos
Asistencia de comunicación: Composición de correos electrónicos con conciencia contextual
Integración entre aplicaciones: Flujos de trabajo fluidos a través de múltiples aplicaciones

Servicios de Navegación y Ubicación

Planificación de rutas: Integración con servicios de mapeo a través de herramientas MCP
Sugerencias basadas en la ubicación: Recomendaciones sensibles al contexto
Transporte multimodal: Soporte para varios métodos de transporte

Especificaciones Técnicas

Requisitos

vLLM: Versión ≥0.11.0
Transformers: Versión ≥4.57.0
Python: Compatible con el ecosistema ML estándar
Hardware: Escalable desde dispositivos móviles hasta infraestructura en la nube

Modelos Disponibles

MAI-UI-2B: Modelo ligero para entornos con recursos limitados
MAI-UI-8B: Rendimiento y eficiencia equilibrados
Variantes más grandes: 32B y 235B-A22B para máxima capacidad

Opciones de Integración

Servicio API: Interfaz compatible con OpenAI a través de vLLM
Integración directa: SDK de Python para aplicaciones personalizadas
Despliegue en contenedor: Soporte Docker para despliegue escalable

Impacto de la Investigación

Liderazgo en Benchmarks

MAI-UI establece nuevos estados del arte en múltiples benchmarks autorizados, demostrando tanto avance teórico como aplicabilidad práctica.

Contribuciones Metodológicas

Colaboración dispositivo-nube: Nueva arquitectura de despliegue para agentes de GUI
Datos auto-evolutivos: Mejora autónoma de conjuntos de datos de entrenamiento
Modelo de interacción extendido: Soporte nativo para diálogo de usuario e integración de herramientas

Aplicaciones Industriales

El proyecto aborda desafíos de despliegue en el mundo real que históricamente han limitado la adopción de agentes de GUI, haciéndolo adecuado para entornos de producción.

Compromiso de Código Abierto

Licencia

Licencia Apache 2.0: Licencia permisiva para uso comercial y de investigación
Componentes de terceros: Claramente documentados con las atribuciones apropiadas
Contribución comunitaria: Modelo de desarrollo abierto que fomenta la colaboración

Recursos Disponibles

Modelos: MAI-UI-2B y MAI-UI-8B en Hugging Face
Código: Implementación completa en GitHub
Documentación: Informes técnicos completos y guías de uso
Benchmarks: Benchmark MobileWorld para evaluación

Direcciones Futuras

Extensiones de Investigación

Variantes de modelos más grandes: Desarrollo continuo de modelos 32B y 235B
Soporte multiplataforma: Extensión más allá de Android a plataformas iOS y de escritorio
Integración de herramientas mejorada: Ecosistema de herramientas MCP más amplio

Aplicaciones Comerciales

Despliegue empresarial: Integración con flujos de trabajo empresariales
Soluciones de accesibilidad: Asistencia para usuarios con discapacidades
Mejora de la productividad: Automatización avanzada para trabajadores del conocimiento

Información de Citación

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

Información de Contacto

Líder del Proyecto: Hanzhang Zhou (hanzhang.zhou@alibaba-inc.com)
Líder Técnico: Xu Zhang (hanguang.zx@alibaba-inc.com)
Director de Investigación: Yue Wang (yue.w@alibaba-inc.com)
Institución: Tongyi Lab, Alibaba Group

Recursos Adicionales

Sitio Web del Proyecto: https://tongyi-mai.github.io/MAI-UI/
Repositorio de GitHub: https://github.com/Tongyi-MAI/MAI-UI
Modelos de Hugging Face: https://huggingface.co/Tongyi-MAI
Artículo Técnico: https://arxiv.org/abs/2512.22047
Benchmark MobileWorld: https://github.com/Tongyi-MAI/MobileWorld