Agents GUI fondamentaux axés sur le monde réel avec interaction utilisateur native, intégration d'outils MCP et capacités de collaboration appareil-cloud
MAI-UI : Agents d'interface graphique fondamentaux axés sur le monde réel
Aperçu
MAI-UI est une famille complète d'agents d'interface graphique fondamentaux développée par le laboratoire Tongyi d'Alibaba, couvrant tout le spectre des tailles de modèles, de 2 milliards à 235 milliards de paramètres A22B. Le projet représente une avancée significative dans la mise en pratique des agents d'interface graphique pour le déploiement dans le monde réel, grâce à des approches innovantes en matière d'interaction utilisateur, d'intégration d'outils et d'architecture de déploiement.
Caractéristiques et innovations clés
1. Modèles fondamentaux multi-échelles
- Variantes de modèles : 2 milliards, 8 milliards, 32 milliards et 235 milliards de paramètres A22B
- Architecture de base : Basée sur les grands modèles de langage multimodaux Qwen3-VL
- Approche d'entraînement : Affinage supervisé conjoint et apprentissage par renforcement
- Flexibilité de déploiement : Adapté à diverses contraintes matérielles et exigences de performance
2. Espace d'action étendu
MAI-UI introduit trois capacités critiques au-delà des opérations d'interface graphique traditionnelles :
Interaction Agent-Utilisateur
- Action
ask_user: Demande proactive de clarification pour les instructions ambiguës - Conversation dynamique : Gère les exigences utilisateur incomplètes ou peu claires
- Applicabilité dans le monde réel : Aborde le scénario courant où les instructions de l'utilisateur manquent de spécificité
Intégration d'outils MCP
- Action
mcp_call: Appel direct d'outils externes via le protocole de contexte modèle (Model Context Protocol) - Opérations au niveau de l'API : Alternatives efficaces aux manipulations complexes de l'interface utilisateur
- Fonctionnalité améliorée : Accès à des services tels que la cartographie, la gestion de fichiers et la récupération de données
Collaboration appareil-cloud
- Routage intelligent : Sélection dynamique entre l'exécution sur appareil et dans le cloud
- Préservation de la confidentialité : Maintient les opérations sensibles localement tout en tirant parti du cloud pour les tâches complexes
- Optimisation des coûts : Réduit les appels d'API cloud de plus de 40 %
3. Pipeline de données auto-évolutif
- Génération autonome de données : Amélioration continue du corpus d'entraînement
- Collaboration multi-agents : Combinaison d'annotations humaines et de trajectoires générées par le modèle
- Filtrage de qualité : Les modèles de jugement évaluent et conservent les chemins d'exécution de haute qualité
- Adaptation dynamique : Les données d'entraînement évoluent avec les capacités du modèle
4. Apprentissage par renforcement en ligne à grande échelle
- Parallélisation massive : Jusqu'à 512 environnements Android parallèles
- Contexte étendu : Prise en charge jusqu'à 50 étapes d'environnement
- Améliorations significatives : +5,2 points grâce à la mise à l'échelle de l'environnement, +4,3 points grâce à l'augmentation du budget d'étapes
- Robustesse dans le monde réel : Entraînement dans des environnements dynamiques avec des pop-ups, des publicités et des changements d'interface utilisateur
Réalisations en matière de performance
Benchmarks de mise au sol de l'interface graphique
- ScreenSpot-Pro : 73,5 % de précision (dépasse Gemini-3-Pro et Seed1.8)
- MMBench GUI L2 : 91,3 % de précision
- OSWorld-G : 70,9 % de précision
- UI-Vision : 49,2 % de précision
Benchmarks de navigation mobile
- AndroidWorld : 76,7 % de taux de réussite (nouveau SOTA, dépassant UI-Tars-2, Gemini-2.5-Pro et Seed1.8)
- MobileWorld : 41,7 % de taux de réussite (amélioration de 20,8 points par rapport aux meilleures bases de référence)
Résultats de la collaboration appareil-cloud
- Amélioration des performances : Amélioration de 33 % des performances sur appareil
- Réduction des coûts : Réduction de plus de 40 % des appels de modèles cloud
- Préservation de la confidentialité : 40,5 % des tâches effectuées entièrement sur appareil
Architecture technique
Fondation du modèle
- Architecture de base : Architecture multimodale Qwen3-VL
- Modalités d'entrée : Instructions en langage naturel et captures d'écran d'interface utilisateur rendues
- Sortie : Actions structurées pour les appareils Android en direct
- Espace d'action : Clic, balayage, saisie de texte, boutons système, ainsi que des capacités d'interaction améliorées
Méthodologie d'entraînement
- Affinage supervisé : Entraînement initial sur des données de mise au sol et de navigation d'interface graphique organisées
- Apprentissage par renforcement en ligne : Amélioration continue par l'interaction avec des environnements réels
- Pipeline auto-évolutif : Génération autonome de données et amélioration de la qualité
- Intégration multidimensionnelle : Interactions utilisateur, appels d'outils MCP et opérations d'interface graphique traditionnelles
Système de déploiement
- Architecture hybride : Intégration transparente des modèles sur appareil et dans le cloud
- Routage axé sur les tâches : Prise de décision intelligente basée sur la complexité de la tâche et les exigences de confidentialité
- Conception axée sur la confidentialité : Les opérations sensibles restent locales tandis que les tâches complexes tirent parti des capacités du cloud
- Optimisation des coûts : Utilisation efficace des ressources grâce à une distribution intelligente de la charge de travail
Applications dans le monde réel
Usage domestique et personnel
- Achats intelligents : Suggestions proactives basées sur l'intégration du calendrier
- Automatisation des tâches : Flux de travail multi-applications complexes pour les activités quotidiennes
- Assistance contextuelle : Compréhension de l'intention de l'utilisateur par une conversation naturelle
Usage professionnel et de bureau
- Gestion de documents : Traitement et partage intelligents de fichiers
- Assistance à la communication : Rédaction d'e-mails avec conscience du contexte
- Intégration inter-applications : Flux de travail transparent entre plusieurs applications
Services de navigation et de localisation
- Planification d'itinéraires : Intégration avec les services de cartographie via les outils MCP
- Suggestions basées sur la localisation : Recommandations contextuelles
- Transport multimodal : Prise en charge de divers modes de transport
Spécifications techniques
Exigences
- vLLM : Version ≥0.11.0
- Transformers : Version ≥4.57.0
- Python : Compatible avec l'écosystème ML standard
- Matériel : Évolutif des appareils mobiles à l'infrastructure cloud
Modèles disponibles
- MAI-UI-2B : Modèle léger pour les environnements aux ressources limitées
- MAI-UI-8B : Performances et efficacité équilibrées
- Variantes plus grandes : 32 milliards et 235 milliards A22B pour une capacité maximale
Options d'intégration
- Service API : Interface compatible OpenAI via vLLM
- Intégration directe : SDK Python pour les applications personnalisées
- Déploiement conteneurisé : Support Docker pour un déploiement évolutif
Impact de la recherche
Leadership en matière de benchmarks
MAI-UI établit de nouvelles performances de pointe sur plusieurs benchmarks faisant autorité, démontrant à la fois l'avancement théorique et l'applicabilité pratique.
Contributions méthodologiques
- Collaboration appareil-cloud : Nouvelle architecture de déploiement pour les agents d'interface graphique
- Données auto-évolutives : Amélioration autonome des ensembles de données d'entraînement
- Modèle d'interaction étendu : Prise en charge native du dialogue utilisateur et de l'intégration d'outils
Applications industrielles
Le projet aborde les défis de déploiement dans le monde réel qui ont historiquement limité l'adoption des agents d'interface graphique, le rendant adapté aux environnements de production.
Engagement open source
Licence
- Licence Apache 2.0 : Licence permissive pour un usage commercial et de recherche
- Composants tiers : Clairement documentés avec les attributions appropriées
- Contribution communautaire : Modèle de développement ouvert encourageant la collaboration
Ressources disponibles
- Modèles : MAI-UI-2B et MAI-UI-8B sur Hugging Face
- Code : Implémentation complète sur GitHub
- Documentation : Rapports techniques complets et guides d'utilisation
- Benchmarks : Benchmark MobileWorld pour l'évaluation
Orientations futures
Extensions de recherche
- Variantes de modèles plus grandes : Développement continu des modèles 32 milliards et 235 milliards
- Prise en charge multiplateforme : Extension au-delà d'Android vers les plateformes iOS et de bureau
- Intégration d'outils améliorée : Écosystème d'outils MCP plus large
Applications commerciales
- Déploiement en entreprise : Intégration avec les flux de travail professionnels
- Solutions d'accessibilité : Assistance aux utilisateurs handicapés
- Amélioration de la productivité : Automatisation avancée pour les travailleurs du savoir
Informations de citation
@misc{zhou2025maiuitechnicalreportrealworld,
title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
year={2025},
eprint={2512.22047},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2512.22047}
}
Informations de contact
- Chef de projet : Hanzhang Zhou (hanzhang.zhou@alibaba-inc.com)
- Chef technique : Xu Zhang (hanguang.zx@alibaba-inc.com)
- Directeur de la recherche : Yue Wang (yue.w@alibaba-inc.com)
- Institution : Tongyi Lab, Alibaba Group
Ressources supplémentaires
- Site web du projet : https://tongyi-mai.github.io/MAI-UI/
- Dépôt GitHub : https://github.com/Tongyi-MAI/MAI-UI
- Modèles Hugging Face : https://huggingface.co/Tongyi-MAI
- Article technique : https://arxiv.org/abs/2512.22047
- Benchmark MobileWorld : https://github.com/Tongyi-MAI/MobileWorld