Agents GUI fondamentaux axés sur le monde réel avec interaction utilisateur native, intégration d'outils MCP et capacités de collaboration appareil-cloud

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI : Agents d'interface graphique fondamentaux axés sur le monde réel

Aperçu

MAI-UI est une famille complète d'agents d'interface graphique fondamentaux développée par le laboratoire Tongyi d'Alibaba, couvrant tout le spectre des tailles de modèles, de 2 milliards à 235 milliards de paramètres A22B. Le projet représente une avancée significative dans la mise en pratique des agents d'interface graphique pour le déploiement dans le monde réel, grâce à des approches innovantes en matière d'interaction utilisateur, d'intégration d'outils et d'architecture de déploiement.

Caractéristiques et innovations clés

1. Modèles fondamentaux multi-échelles

  • Variantes de modèles : 2 milliards, 8 milliards, 32 milliards et 235 milliards de paramètres A22B
  • Architecture de base : Basée sur les grands modèles de langage multimodaux Qwen3-VL
  • Approche d'entraînement : Affinage supervisé conjoint et apprentissage par renforcement
  • Flexibilité de déploiement : Adapté à diverses contraintes matérielles et exigences de performance

2. Espace d'action étendu

MAI-UI introduit trois capacités critiques au-delà des opérations d'interface graphique traditionnelles :

Interaction Agent-Utilisateur

  • Action ask_user : Demande proactive de clarification pour les instructions ambiguës
  • Conversation dynamique : Gère les exigences utilisateur incomplètes ou peu claires
  • Applicabilité dans le monde réel : Aborde le scénario courant où les instructions de l'utilisateur manquent de spécificité

Intégration d'outils MCP

  • Action mcp_call : Appel direct d'outils externes via le protocole de contexte modèle (Model Context Protocol)
  • Opérations au niveau de l'API : Alternatives efficaces aux manipulations complexes de l'interface utilisateur
  • Fonctionnalité améliorée : Accès à des services tels que la cartographie, la gestion de fichiers et la récupération de données

Collaboration appareil-cloud

  • Routage intelligent : Sélection dynamique entre l'exécution sur appareil et dans le cloud
  • Préservation de la confidentialité : Maintient les opérations sensibles localement tout en tirant parti du cloud pour les tâches complexes
  • Optimisation des coûts : Réduit les appels d'API cloud de plus de 40 %

3. Pipeline de données auto-évolutif

  • Génération autonome de données : Amélioration continue du corpus d'entraînement
  • Collaboration multi-agents : Combinaison d'annotations humaines et de trajectoires générées par le modèle
  • Filtrage de qualité : Les modèles de jugement évaluent et conservent les chemins d'exécution de haute qualité
  • Adaptation dynamique : Les données d'entraînement évoluent avec les capacités du modèle

4. Apprentissage par renforcement en ligne à grande échelle

  • Parallélisation massive : Jusqu'à 512 environnements Android parallèles
  • Contexte étendu : Prise en charge jusqu'à 50 étapes d'environnement
  • Améliorations significatives : +5,2 points grâce à la mise à l'échelle de l'environnement, +4,3 points grâce à l'augmentation du budget d'étapes
  • Robustesse dans le monde réel : Entraînement dans des environnements dynamiques avec des pop-ups, des publicités et des changements d'interface utilisateur

Réalisations en matière de performance

Benchmarks de mise au sol de l'interface graphique

  • ScreenSpot-Pro : 73,5 % de précision (dépasse Gemini-3-Pro et Seed1.8)
  • MMBench GUI L2 : 91,3 % de précision
  • OSWorld-G : 70,9 % de précision
  • UI-Vision : 49,2 % de précision

Benchmarks de navigation mobile

  • AndroidWorld : 76,7 % de taux de réussite (nouveau SOTA, dépassant UI-Tars-2, Gemini-2.5-Pro et Seed1.8)
  • MobileWorld : 41,7 % de taux de réussite (amélioration de 20,8 points par rapport aux meilleures bases de référence)

Résultats de la collaboration appareil-cloud

  • Amélioration des performances : Amélioration de 33 % des performances sur appareil
  • Réduction des coûts : Réduction de plus de 40 % des appels de modèles cloud
  • Préservation de la confidentialité : 40,5 % des tâches effectuées entièrement sur appareil

Architecture technique

Fondation du modèle

  • Architecture de base : Architecture multimodale Qwen3-VL
  • Modalités d'entrée : Instructions en langage naturel et captures d'écran d'interface utilisateur rendues
  • Sortie : Actions structurées pour les appareils Android en direct
  • Espace d'action : Clic, balayage, saisie de texte, boutons système, ainsi que des capacités d'interaction améliorées

Méthodologie d'entraînement

  1. Affinage supervisé : Entraînement initial sur des données de mise au sol et de navigation d'interface graphique organisées
  2. Apprentissage par renforcement en ligne : Amélioration continue par l'interaction avec des environnements réels
  3. Pipeline auto-évolutif : Génération autonome de données et amélioration de la qualité
  4. Intégration multidimensionnelle : Interactions utilisateur, appels d'outils MCP et opérations d'interface graphique traditionnelles

Système de déploiement

  • Architecture hybride : Intégration transparente des modèles sur appareil et dans le cloud
  • Routage axé sur les tâches : Prise de décision intelligente basée sur la complexité de la tâche et les exigences de confidentialité
  • Conception axée sur la confidentialité : Les opérations sensibles restent locales tandis que les tâches complexes tirent parti des capacités du cloud
  • Optimisation des coûts : Utilisation efficace des ressources grâce à une distribution intelligente de la charge de travail

Applications dans le monde réel

Usage domestique et personnel

  • Achats intelligents : Suggestions proactives basées sur l'intégration du calendrier
  • Automatisation des tâches : Flux de travail multi-applications complexes pour les activités quotidiennes
  • Assistance contextuelle : Compréhension de l'intention de l'utilisateur par une conversation naturelle

Usage professionnel et de bureau

  • Gestion de documents : Traitement et partage intelligents de fichiers
  • Assistance à la communication : Rédaction d'e-mails avec conscience du contexte
  • Intégration inter-applications : Flux de travail transparent entre plusieurs applications

Services de navigation et de localisation

  • Planification d'itinéraires : Intégration avec les services de cartographie via les outils MCP
  • Suggestions basées sur la localisation : Recommandations contextuelles
  • Transport multimodal : Prise en charge de divers modes de transport

Spécifications techniques

Exigences

  • vLLM : Version ≥0.11.0
  • Transformers : Version ≥4.57.0
  • Python : Compatible avec l'écosystème ML standard
  • Matériel : Évolutif des appareils mobiles à l'infrastructure cloud

Modèles disponibles

  • MAI-UI-2B : Modèle léger pour les environnements aux ressources limitées
  • MAI-UI-8B : Performances et efficacité équilibrées
  • Variantes plus grandes : 32 milliards et 235 milliards A22B pour une capacité maximale

Options d'intégration

  • Service API : Interface compatible OpenAI via vLLM
  • Intégration directe : SDK Python pour les applications personnalisées
  • Déploiement conteneurisé : Support Docker pour un déploiement évolutif

Impact de la recherche

Leadership en matière de benchmarks

MAI-UI établit de nouvelles performances de pointe sur plusieurs benchmarks faisant autorité, démontrant à la fois l'avancement théorique et l'applicabilité pratique.

Contributions méthodologiques

  • Collaboration appareil-cloud : Nouvelle architecture de déploiement pour les agents d'interface graphique
  • Données auto-évolutives : Amélioration autonome des ensembles de données d'entraînement
  • Modèle d'interaction étendu : Prise en charge native du dialogue utilisateur et de l'intégration d'outils

Applications industrielles

Le projet aborde les défis de déploiement dans le monde réel qui ont historiquement limité l'adoption des agents d'interface graphique, le rendant adapté aux environnements de production.

Engagement open source

Licence

  • Licence Apache 2.0 : Licence permissive pour un usage commercial et de recherche
  • Composants tiers : Clairement documentés avec les attributions appropriées
  • Contribution communautaire : Modèle de développement ouvert encourageant la collaboration

Ressources disponibles

  • Modèles : MAI-UI-2B et MAI-UI-8B sur Hugging Face
  • Code : Implémentation complète sur GitHub
  • Documentation : Rapports techniques complets et guides d'utilisation
  • Benchmarks : Benchmark MobileWorld pour l'évaluation

Orientations futures

Extensions de recherche

  • Variantes de modèles plus grandes : Développement continu des modèles 32 milliards et 235 milliards
  • Prise en charge multiplateforme : Extension au-delà d'Android vers les plateformes iOS et de bureau
  • Intégration d'outils améliorée : Écosystème d'outils MCP plus large

Applications commerciales

  • Déploiement en entreprise : Intégration avec les flux de travail professionnels
  • Solutions d'accessibilité : Assistance aux utilisateurs handicapés
  • Amélioration de la productivité : Automatisation avancée pour les travailleurs du savoir

Informations de citation

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

Informations de contact

Ressources supplémentaires

Star History Chart