Une famille d'agents intelligents d'automatisation GUI multimodaux puissants, prenant en charge les opérations de bout en bout sur les appareils mobiles et les plateformes PC.

MITPythonMobileAgentX-PLUG 5.6k Last Updated: September 11, 2025

Présentation Détaillée du Projet Mobile-Agent

Aperçu du Projet

Mobile-Agent est une puissante famille d'agents GUI développée par l'équipe X-PLUG d'Alibaba, un système d'agents multimodal de bout en bout conçu pour les appareils mobiles et les plateformes PC. Ce projet vise à automatiser les interfaces graphiques (GUI) en permettant l'opération autonome de diverses applications grâce à la perception visuelle, la planification de raisonnement et l'exécution d'actions.

Architecture et Composants du Projet

Série de Composants Clés

1. Modèle de Base GUI-Owl

GUI-Owl est un modèle d'agent GUI fondamental qui a atteint des performances de pointe pour les modèles open source de bout en bout sur dix benchmarks GUI, couvrant la localisation, les questions-réponses, la planification, la prise de décision et la connaissance procédurale dans les environnements de bureau et mobiles. GUI-Owl-7B a obtenu un score de 66,4 sur AndroidWorld et de 29,4 sur OSWorld.

2. Mobile-Agent-v3

Mobile-Agent-v3 est un cadre multi-agents multiplateforme basé sur GUI-Owl, offrant des fonctionnalités telles que la planification, la gestion de la progression, la réflexion et la mémoire. C'est un agent multimodal natif de bout en bout, conçu comme un modèle de base pour l'automatisation GUI, unifiant la perception, la localisation, le raisonnement, la planification et l'exécution d'actions au sein d'un réseau de politiques unique.

3. Mobile-Agent-E

Mobile-Agent-E est un cadre multi-agents hiérarchique doté de capacités d'auto-évolution, capable de s'améliorer grâce à des expériences passées, et démontrant de meilleures performances sur des tâches complexes impliquant plusieurs applications.

4. PC-Agent

PC-Agent est un système de collaboration multi-agents qui peut automatiser des scénarios de productivité (tels que Chrome, Word et WeChat) basés sur les instructions de l'utilisateur. Son module de perception active, spécialement conçu pour les éléments d'interaction denses et variés, s'adapte mieux à la plateforme PC. La structure de collaboration multi-agents hiérarchique améliore le taux de réussite des séquences de tâches plus complexes. Il prend désormais en charge Windows et Mac simultanément.

5. Mobile-Agent-v2

Mobile-Agent-v2 est un assistant d'opération pour appareils mobiles qui permet une navigation efficace grâce à la collaboration multi-agents. L'architecture multi-agents résout les défis de navigation dans les scénarios d'entrée à long contexte. Le module de perception visuelle amélioré augmente considérablement la précision des opérations.

Caractéristiques Techniques

Avantages Technologiques Clés

  1. Compatibilité Multiplateforme : Prend en charge Android, iOS, Windows, Mac et d'autres plateformes.
  2. Capacité de Perception Visuelle : Utilise des outils de perception visuelle pour identifier et localiser avec précision les éléments visuels et textuels dans l'interface frontale de l'application.
  3. Compréhension Multimodale : Combine la compréhension visuelle et linguistique pour le raisonnement de tâches complexes.
  4. Opération de Bout en Bout : Processus d'automatisation complet, de la compréhension de la tâche à l'exécution.
  5. Auto-Évolution : Amélioration continue des performances grâce à l'apprentissage par l'expérience.

Points d'Innovation Technologique

Les Trois Innovations Majeures de GUI-Owl

  1. Infrastructure Environnementale à Grande Échelle : Environnement virtuel basé sur le cloud, couvrant Android, Ubuntu, macOS et Windows, prenant en charge un cadre de production de trajectoires GUI auto-évolutif.
  2. Capacités Diversifiées d'Agents Fondamentaux : Intègre la localisation d'interface utilisateur, la planification, la sémantique d'action et les modes de raisonnement, prenant en charge la prise de décision de bout en bout.
  3. Apprentissage par Renforcement Environnemental Évolutif : Développement d'un cadre d'apprentissage par renforcement évolutif avec un entraînement entièrement asynchrone pour l'alignement avec le monde réel.

Performances

Résultats des Tests de Référence

  • Mobile-Agent-v3 a atteint un score de 73,3 sur AndroidWorld et de 37,7 sur OSWorld, établissant une nouvelle norme de pointe pour les cadres d'agents GUI open source.
  • A obtenu des performances SOTA sur plusieurs classements d'évaluation de l'automatisation GUI, y compris ScreenSpot-V2, ScreenSpot-Pro, OSWorld-G, MMBench-GUI, Android Control, Android World et OSWorld.

Optimisation des Performances du Système

  • Faible encombrement mémoire (8 Go)
  • Vitesse d'inférence rapide (10-15 secondes par opération)
  • Utilise uniquement des modèles open source

Implémentation Technique

Exigences Environnementales

# Configuration de l'environnement de base
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt

Configuration de la Plateforme Android

  1. Téléchargez Android Debug Bridge (ADB).
  2. Activez le débogage ADB sur votre téléphone Android.
  3. Connectez le téléphone à l'ordinateur avec un câble de données et sélectionnez "Transférer des fichiers".
  4. Testez l'environnement ADB : /path/to/adb devices

Configuration de la Plateforme PC

# Environnement Windows
pip install -r requirements.txt

# Environnement Mac
pip install -r requirements_mac.txt

Configuration de l'API

{
  "vl_model_name": "gpt-4o",
  "llm_model_name": "gpt-4o", 
  "token": "sk-...",
  "url": "https://api.openai.com/v1"
}

Scénarios d'Application

Types d'Opérations Prises en Charge

  1. Opérations d'Applications Mobiles : Clics, balayages, saisie de texte, commutation d'applications.
  2. Opérations d'Applications PC : Contrôle de navigateur, opérations de logiciels de bureautique, utilisation de logiciels de communication.
  3. Tâches Trans-Applications : Flux de travail complexes entre plusieurs applications.
  4. Tâches de Raisonnement Complexes : Tâches à long terme nécessitant un raisonnement en plusieurs étapes.

Exemples d'Applications Pratiques

  • Achats en ligne : Recherche de produits, comparaison de prix, ajout au panier.
  • Recherche d'informations : Recherche d'actualités, obtention de résultats de matchs sportifs.
  • Automatisation de bureau : Rédaction de documents, envoi d'e-mails, traitement de données.
  • Médias sociaux : Publication de contenu, réponse aux messages, partage d'informations.

Réalisations Académiques

Articles Publiés

  • Mobile-Agent-v3 (2025) : Foundamental Agents for GUI Automation
  • PC-Agent (ICLR 2025 Workshop) : A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
  • Mobile-Agent-E (2025) : Self-Evolving Mobile Assistant for Complex Tasks
  • Mobile-Agent-v2 (NeurIPS 2024) : Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
  • Mobile-Agent (ICLR 2024 Workshop) : Autonomous Multi-Modal Mobile Device Agent with Visual Perception

Prix Obtenus

  • Prix de la meilleure démonstration à la 24e Conférence Chinoise sur la Linguistique Computationnelle (CCL 2025).
  • Prix de la meilleure démonstration à la 23e Conférence Chinoise sur la Linguistique Computationnelle (CCL 2024).

Critères d'Évaluation

Benchmark Mobile-Eval

Mobile-Eval est un benchmark conçu pour évaluer les performances des agents pour appareils mobiles, comprenant 10 scénarios d'application unique courants et 1 scénario multi-applications. Chaque scénario est conçu avec trois types d'instructions.

Exemples de Scénarios de Test

  • Tâche d'achat : Rechercher un chapeau sur le site Alibaba et l'ajouter au panier.
  • Lecture de musique : Rechercher le chanteur Jay Chou sur Amazon Music.
  • Recherche d'informations : Rechercher les résultats du match des Lakers d'aujourd'hui.
  • Envoi d'e-mail : Envoyer un e-mail vide à une adresse spécifiée.

Pile Technologique

Technologies Clés

  • Grands Modèles de Langage Multimodaux : GPT-4V, Qwen-VL, etc.
  • Perception Visuelle : CLIP, GroundingDINO, etc.
  • Apprentissage par Renforcement : Trajectory-aware Relative Policy Optimization (TRPO).
  • Cadre Multi-Agents : Architecture de collaboration hiérarchique.

Plateformes Prises en Charge

  • Plateformes Mobiles : Android, HarmonyOS (versions ≤ 4).
  • Plateformes de Bureau : Windows, macOS, Ubuntu.
  • Navigateurs : Chrome et autres navigateurs grand public.
  • Logiciels de Bureautique : Word, Excel, PowerPoint, etc.

Informations Open Source

Structure du Dépôt

MobileAgent/
├── Mobile-Agent/          # Version originale
├── Mobile-Agent-v2/       # Version de collaboration multi-agents
├── Mobile-Agent-v3/       # Dernière version basée sur GUI-Owl
├── Mobile-Agent-E/        # Version auto-évolutive
├── PC-Agent/             # Version pour plateforme PC
└── requirements.txt      # Dépendances

Publication des Modèles

  • Les points de contrôle des modèles GUI-Owl-7B et GUI-Owl-32B ont été publiés.
  • Prise en charge du déploiement sur les plateformes HuggingFace et ModelScope.
  • Offre une expérience de démonstration en ligne.

Communauté et Écosystème

Expérience en Ligne

Projets Connexes

  • AppAgent : Agent multimodal en tant qu'utilisateur de smartphone.
  • mPLUG-Owl : Grand modèle de langage multimodal modulaire.
  • Qwen-VL : Modèle de langage visuel général.
  • GroundingDINO : Détection d'objets en ensemble ouvert.

Développements Futurs

Ce projet représente l'avant-garde du développement des agents d'automatisation GUI, ouvrant la voie à la réalisation d'un véritable assistant d'intelligence artificielle généraliste grâce à une innovation technologique et une optimisation des performances continues. Avec l'amélioration des capacités du modèle et l'expansion des scénarios d'application, Mobile-Agent devrait jouer un rôle important dans un plus grand nombre de scénarios pratiques.

Star History Chart