Una potente familia de agentes inteligentes de automatización de GUI multimodal que admite operaciones de extremo a extremo en dispositivos móviles y plataformas de PC.

MITPythonMobileAgentX-PLUG 5.6k Last Updated: September 11, 2025

Descripción detallada del proyecto Mobile-Agent

Resumen del proyecto

Mobile-Agent, desarrollado por el equipo X-PLUG de Alibaba, es una potente familia de agentes inteligentes GUI y un sistema de agente multimodal de extremo a extremo diseñado específicamente para dispositivos móviles y plataformas PC. El proyecto tiene como objetivo lograr la automatización de la GUI, operando de forma autónoma diversas aplicaciones a través de la percepción visual, la planificación de inferencia y la ejecución de acciones.

Arquitectura y componentes del proyecto

Serie de componentes principales

1. Modelo base GUI-Owl

GUI-Owl es un modelo base de agente GUI que ha logrado un rendimiento de vanguardia entre los modelos de extremo a extremo de código abierto en diez pruebas de referencia GUI, cubriendo la localización, preguntas y respuestas, planificación, toma de decisiones y conocimiento programático en entornos de escritorio y móviles. GUI-Owl-7B alcanza una puntuación de 66.4 en AndroidWorld y 29.4 en OSWorld.

2. Mobile-Agent-v3

Mobile-Agent-v3 es un marco multiagente multiplataforma basado en GUI-Owl, que ofrece funciones como planificación, gestión de progreso, reflexión y memoria. Es un agente multimodal nativo de extremo a extremo, diseñado como modelo base para la automatización de GUI, que unifica la percepción, localización, inferencia, planificación y ejecución de acciones en una única red de políticas.

3. Mobile-Agent-E

Mobile-Agent-E es un marco multiagente jerárquico con capacidad de autoevolución, capaz de mejorarse a sí mismo a través de experiencias pasadas, mostrando un rendimiento más sólido en tareas complejas de múltiples aplicaciones.

4. PC-Agent

PC-Agent es un sistema de colaboración multiagente que puede automatizar el control de escenarios de productividad (como Chrome, Word y WeChat) basándose en las instrucciones del usuario. Su módulo de percepción activa, diseñado específicamente para elementos de interacción densos y diversos, se adapta mejor a la plataforma PC. La estructura de colaboración multiagente jerárquica mejora la tasa de éxito en secuencias de tareas más complejas. Ahora es compatible con Windows y Mac.

5. Mobile-Agent-v2

Mobile-Agent-v2 es un asistente de operación de dispositivos móviles que logra una navegación efectiva a través de la colaboración multiagente. La arquitectura multiagente resuelve los desafíos de navegación en escenarios de entrada de contexto largo. El módulo de percepción visual mejorado aumenta significativamente la precisión de la operación.

Características técnicas

Ventajas tecnológicas clave

  1. Compatibilidad multiplataforma: Soporta múltiples plataformas como Android, iOS, Windows, Mac.
  2. Capacidad de percepción visual: Utiliza herramientas de percepción visual para identificar y localizar con precisión elementos visuales y de texto en la interfaz de usuario de las aplicaciones.
  3. Comprensión multimodal: Combina la comprensión visual y del lenguaje para el razonamiento de tareas complejas.
  4. Operación de extremo a extremo: Proceso de automatización completo desde la comprensión de la tarea hasta la ejecución.
  5. Autoevolución: Mejora continua del rendimiento a través del aprendizaje por experiencia.

Puntos de innovación tecnológica

Las tres grandes innovaciones de GUI-Owl

  1. Infraestructura de entorno a gran escala: Entorno virtual basado en la nube que abarca Android, Ubuntu, macOS y Windows, compatible con un marco de producción de trayectorias GUI autoevolutivo.
  2. Capacidades diversas del agente fundamental: Integra localización de UI, planificación, semántica de acciones y modos de inferencia, compatible con la toma de decisiones de extremo a extremo.
  3. Aprendizaje por refuerzo ambiental escalable: Desarrollo de un marco de aprendizaje por refuerzo escalable con entrenamiento completamente asíncrono para la alineación con el mundo real.

Rendimiento

Resultados de pruebas de referencia

  • Mobile-Agent-v3 alcanza una puntuación de 73.3 en AndroidWorld y 37.7 en OSWorld, estableciendo un nuevo estándar de vanguardia para los marcos de agentes GUI de código abierto.
  • Logra un rendimiento SOTA en múltiples listas de evaluación de automatización GUI, incluyendo ScreenSpot-V2, ScreenSpot-Pro, OSWorld-G, MMBench-GUI, Android Control, Android World y OSWorld.

Optimización del rendimiento del sistema

  • Bajo consumo de memoria (8GB)
  • Velocidad de inferencia rápida (10-15 segundos por operación)
  • Utiliza exclusivamente modelos de código abierto

Implementación técnica

Requisitos del entorno

# Configuración básica del entorno
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt

Configuración de la plataforma Android

  1. Descargue Android Debug Bridge (ADB).
  2. Active la depuración ADB en su teléfono Android.
  3. Conecte el teléfono a la computadora con un cable de datos y seleccione "Transferir archivos".
  4. Pruebe el entorno ADB: /path/to/adb devices

Configuración de la plataforma PC

# Entorno Windows
pip install -r requirements.txt

# Entorno Mac
pip install -r requirements_mac.txt

Configuración de la API

{
  "vl_model_name": "gpt-4o",
  "llm_model_name": "gpt-4o", 
  "token": "sk-...",
  "url": "https://api.openai.com/v1"
}

Escenarios de aplicación

Tipos de operaciones compatibles

  1. Operaciones de aplicaciones móviles: Clics, deslizamientos, entrada de texto, cambio de aplicaciones.
  2. Operaciones de aplicaciones de PC: Control del navegador, operación de software de oficina, uso de software de comunicación.
  3. Tareas entre aplicaciones: Flujos de trabajo complejos que involucran múltiples aplicaciones.
  4. Tareas de razonamiento complejas: Tareas a largo plazo que requieren razonamiento en múltiples pasos.

Ejemplos de aplicaciones prácticas

  • Compras en línea: Buscar productos, comparar precios, añadir al carrito.
  • Consulta de información: Buscar noticias, obtener resultados de partidos deportivos.
  • Automatización de oficina: Escribir documentos, enviar correos electrónicos, procesamiento de datos.
  • Redes sociales: Publicar contenido, responder mensajes, compartir información.

Logros académicos

Artículos publicados

  • Mobile-Agent-v3 (2025): Agentes Fundamentales para la Automatización de GUI
  • PC-Agent (ICLR 2025 Workshop): Un Marco de Colaboración Multiagente Jerárquico para la Automatización de Tareas Complejas en PC
  • Mobile-Agent-E (2025): Asistente Móvil Autoevolutivo para Tareas Complejas
  • Mobile-Agent-v2 (NeurIPS 2024): Asistente de Operación de Dispositivos Móviles con Navegación Efectiva a través de Colaboración Multiagente
  • Mobile-Agent (ICLR 2024 Workshop): Agente Autónomo Multimodal para Dispositivos Móviles con Percepción Visual

Premios

  • Premio a la Mejor Demostración en la 24ª Conferencia China de Lingüística Computacional (CCL 2025).
  • Premio a la Mejor Demostración en la 23ª Conferencia China de Lingüística Computacional (CCL 2024).

Criterios de evaluación

Referencia Mobile-Eval

Mobile-Eval es una referencia diseñada para evaluar el rendimiento de los agentes de dispositivos móviles, que incluye 10 escenarios principales de una sola aplicación y 1 escenario de múltiples aplicaciones. Cada escenario está diseñado con tres tipos de instrucciones.

Ejemplos de escenarios de prueba

  • Tarea de compra: Buscar un sombrero en el sitio web de Alibaba y añadirlo al carrito.
  • Reproducción de música: Buscar al cantante Jay Chou en Amazon Music.
  • Consulta de información: Buscar los resultados del partido de los Lakers de hoy.
  • Envío de correo electrónico: Enviar un correo electrónico vacío a una dirección específica.

Pila tecnológica

Tecnologías clave

  • Grandes modelos de lenguaje multimodales: GPT-4V, Qwen-VL, etc.
  • Percepción visual: CLIP, GroundingDINO, etc.
  • Aprendizaje por refuerzo: Optimización de políticas relativas conscientes de la trayectoria (TRPO).
  • Marco multiagente: Arquitectura de colaboración jerárquica.

Plataformas compatibles

  • Plataformas móviles: Android, HarmonyOS (versión ≤ 4).
  • Plataformas de escritorio: Windows, macOS, Ubuntu.
  • Navegadores: Chrome y otros navegadores principales.
  • Software de oficina: Word, Excel, PowerPoint, etc.

Información de código abierto

Estructura del repositorio

MobileAgent/
├── Mobile-Agent/          # Versión original
├── Mobile-Agent-v2/       # Versión de colaboración multiagente
├── Mobile-Agent-v3/       # Última versión basada en GUI-Owl
├── Mobile-Agent-E/        # Versión autoevolutiva
├── PC-Agent/             # Versión para plataforma PC
└── requirements.txt      # Paquetes de dependencias

Lanzamiento de modelos

  • Los puntos de control de los modelos GUI-Owl-7B y GUI-Owl-32B han sido publicados.
  • Soporte para la implementación en plataformas HuggingFace y ModelScope.
  • Ofrece una experiencia de demostración en línea.

Comunidad y ecosistema

Experiencia en línea

Proyectos relacionados

  • AppAgent: Agente multimodal como usuario de smartphone.
  • mPLUG-Owl: Modelo de lenguaje grande multimodal modular.
  • Qwen-VL: Modelo de lenguaje visual general.
  • GroundingDINO: Detección de objetos de conjunto abierto.

Desarrollo futuro

Este proyecto representa la vanguardia en el desarrollo de agentes de automatización GUI, y a través de la innovación tecnológica continua y la optimización del rendimiento, allana el camino para la realización de un verdadero asistente de inteligencia artificial general. A medida que la capacidad del modelo y los escenarios de aplicación se expandan, se espera que Mobile-Agent desempeñe un papel importante en más escenarios prácticos.

Star History Chart