Tongyi-MAI/MAI-UI View GitHub Homepage for Latest Official Releases

Agents GUI fondamentaux axés sur le monde réel avec interaction utilisateur native, intégration d'outils MCP et capacités de collaboration appareil-cloud

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI : Agents d'interface graphique fondamentaux axés sur le monde réel

Aperçu

MAI-UI est une famille complète d'agents d'interface graphique fondamentaux développée par le laboratoire Tongyi d'Alibaba, couvrant tout le spectre des tailles de modèles, de 2 milliards à 235 milliards de paramètres A22B. Le projet représente une avancée significative dans la mise en pratique des agents d'interface graphique pour le déploiement dans le monde réel, grâce à des approches innovantes en matière d'interaction utilisateur, d'intégration d'outils et d'architecture de déploiement.

Caractéristiques et innovations clés

1. Modèles fondamentaux multi-échelles

Variantes de modèles : 2 milliards, 8 milliards, 32 milliards et 235 milliards de paramètres A22B
Architecture de base : Basée sur les grands modèles de langage multimodaux Qwen3-VL
Approche d'entraînement : Affinage supervisé conjoint et apprentissage par renforcement
Flexibilité de déploiement : Adapté à diverses contraintes matérielles et exigences de performance

2. Espace d'action étendu

MAI-UI introduit trois capacités critiques au-delà des opérations d'interface graphique traditionnelles :

Interaction Agent-Utilisateur

Action ask_user : Demande proactive de clarification pour les instructions ambiguës
Conversation dynamique : Gère les exigences utilisateur incomplètes ou peu claires
Applicabilité dans le monde réel : Aborde le scénario courant où les instructions de l'utilisateur manquent de spécificité

Intégration d'outils MCP

Action mcp_call : Appel direct d'outils externes via le protocole de contexte modèle (Model Context Protocol)
Opérations au niveau de l'API : Alternatives efficaces aux manipulations complexes de l'interface utilisateur
Fonctionnalité améliorée : Accès à des services tels que la cartographie, la gestion de fichiers et la récupération de données

Collaboration appareil-cloud

Routage intelligent : Sélection dynamique entre l'exécution sur appareil et dans le cloud
Préservation de la confidentialité : Maintient les opérations sensibles localement tout en tirant parti du cloud pour les tâches complexes
Optimisation des coûts : Réduit les appels d'API cloud de plus de 40 %

3. Pipeline de données auto-évolutif

Génération autonome de données : Amélioration continue du corpus d'entraînement
Collaboration multi-agents : Combinaison d'annotations humaines et de trajectoires générées par le modèle
Filtrage de qualité : Les modèles de jugement évaluent et conservent les chemins d'exécution de haute qualité
Adaptation dynamique : Les données d'entraînement évoluent avec les capacités du modèle

4. Apprentissage par renforcement en ligne à grande échelle

Parallélisation massive : Jusqu'à 512 environnements Android parallèles
Contexte étendu : Prise en charge jusqu'à 50 étapes d'environnement
Améliorations significatives : +5,2 points grâce à la mise à l'échelle de l'environnement, +4,3 points grâce à l'augmentation du budget d'étapes
Robustesse dans le monde réel : Entraînement dans des environnements dynamiques avec des pop-ups, des publicités et des changements d'interface utilisateur

Réalisations en matière de performance

Benchmarks de mise au sol de l'interface graphique

ScreenSpot-Pro : 73,5 % de précision (dépasse Gemini-3-Pro et Seed1.8)
MMBench GUI L2 : 91,3 % de précision
OSWorld-G : 70,9 % de précision
UI-Vision : 49,2 % de précision

Benchmarks de navigation mobile

AndroidWorld : 76,7 % de taux de réussite (nouveau SOTA, dépassant UI-Tars-2, Gemini-2.5-Pro et Seed1.8)
MobileWorld : 41,7 % de taux de réussite (amélioration de 20,8 points par rapport aux meilleures bases de référence)

Résultats de la collaboration appareil-cloud

Amélioration des performances : Amélioration de 33 % des performances sur appareil
Réduction des coûts : Réduction de plus de 40 % des appels de modèles cloud
Préservation de la confidentialité : 40,5 % des tâches effectuées entièrement sur appareil

Architecture technique

Fondation du modèle

Architecture de base : Architecture multimodale Qwen3-VL
Modalités d'entrée : Instructions en langage naturel et captures d'écran d'interface utilisateur rendues
Sortie : Actions structurées pour les appareils Android en direct
Espace d'action : Clic, balayage, saisie de texte, boutons système, ainsi que des capacités d'interaction améliorées

Méthodologie d'entraînement

Affinage supervisé : Entraînement initial sur des données de mise au sol et de navigation d'interface graphique organisées
Apprentissage par renforcement en ligne : Amélioration continue par l'interaction avec des environnements réels
Pipeline auto-évolutif : Génération autonome de données et amélioration de la qualité
Intégration multidimensionnelle : Interactions utilisateur, appels d'outils MCP et opérations d'interface graphique traditionnelles

Système de déploiement

Architecture hybride : Intégration transparente des modèles sur appareil et dans le cloud
Routage axé sur les tâches : Prise de décision intelligente basée sur la complexité de la tâche et les exigences de confidentialité
Conception axée sur la confidentialité : Les opérations sensibles restent locales tandis que les tâches complexes tirent parti des capacités du cloud
Optimisation des coûts : Utilisation efficace des ressources grâce à une distribution intelligente de la charge de travail

Applications dans le monde réel

Usage domestique et personnel

Achats intelligents : Suggestions proactives basées sur l'intégration du calendrier
Automatisation des tâches : Flux de travail multi-applications complexes pour les activités quotidiennes
Assistance contextuelle : Compréhension de l'intention de l'utilisateur par une conversation naturelle

Usage professionnel et de bureau

Gestion de documents : Traitement et partage intelligents de fichiers
Assistance à la communication : Rédaction d'e-mails avec conscience du contexte
Intégration inter-applications : Flux de travail transparent entre plusieurs applications

Services de navigation et de localisation

Planification d'itinéraires : Intégration avec les services de cartographie via les outils MCP
Suggestions basées sur la localisation : Recommandations contextuelles
Transport multimodal : Prise en charge de divers modes de transport

Spécifications techniques

Exigences

vLLM : Version ≥0.11.0
Transformers : Version ≥4.57.0
Python : Compatible avec l'écosystème ML standard
Matériel : Évolutif des appareils mobiles à l'infrastructure cloud

Modèles disponibles

MAI-UI-2B : Modèle léger pour les environnements aux ressources limitées
MAI-UI-8B : Performances et efficacité équilibrées
Variantes plus grandes : 32 milliards et 235 milliards A22B pour une capacité maximale

Options d'intégration

Service API : Interface compatible OpenAI via vLLM
Intégration directe : SDK Python pour les applications personnalisées
Déploiement conteneurisé : Support Docker pour un déploiement évolutif

Impact de la recherche

Leadership en matière de benchmarks

MAI-UI établit de nouvelles performances de pointe sur plusieurs benchmarks faisant autorité, démontrant à la fois l'avancement théorique et l'applicabilité pratique.

Contributions méthodologiques

Collaboration appareil-cloud : Nouvelle architecture de déploiement pour les agents d'interface graphique
Données auto-évolutives : Amélioration autonome des ensembles de données d'entraînement
Modèle d'interaction étendu : Prise en charge native du dialogue utilisateur et de l'intégration d'outils

Applications industrielles

Le projet aborde les défis de déploiement dans le monde réel qui ont historiquement limité l'adoption des agents d'interface graphique, le rendant adapté aux environnements de production.

Engagement open source

Licence

Licence Apache 2.0 : Licence permissive pour un usage commercial et de recherche
Composants tiers : Clairement documentés avec les attributions appropriées
Contribution communautaire : Modèle de développement ouvert encourageant la collaboration

Ressources disponibles

Modèles : MAI-UI-2B et MAI-UI-8B sur Hugging Face
Code : Implémentation complète sur GitHub
Documentation : Rapports techniques complets et guides d'utilisation
Benchmarks : Benchmark MobileWorld pour l'évaluation

Orientations futures

Extensions de recherche

Variantes de modèles plus grandes : Développement continu des modèles 32 milliards et 235 milliards
Prise en charge multiplateforme : Extension au-delà d'Android vers les plateformes iOS et de bureau
Intégration d'outils améliorée : Écosystème d'outils MCP plus large

Applications commerciales

Déploiement en entreprise : Intégration avec les flux de travail professionnels
Solutions d'accessibilité : Assistance aux utilisateurs handicapés
Amélioration de la productivité : Automatisation avancée pour les travailleurs du savoir

Informations de citation

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

Informations de contact

Chef de projet : Hanzhang Zhou (hanzhang.zhou@alibaba-inc.com)
Chef technique : Xu Zhang (hanguang.zx@alibaba-inc.com)
Directeur de la recherche : Yue Wang (yue.w@alibaba-inc.com)
Institution : Tongyi Lab, Alibaba Group

Ressources supplémentaires

Site web du projet : https://tongyi-mai.github.io/MAI-UI/
Dépôt GitHub : https://github.com/Tongyi-MAI/MAI-UI
Modèles Hugging Face : https://huggingface.co/Tongyi-MAI
Article technique : https://arxiv.org/abs/2512.22047
Benchmark MobileWorld : https://github.com/Tongyi-MAI/MobileWorld