Tongyi-MAI/MAI-UI View GitHub Homepage for Latest Official Releases

Praxisorientierte Basis-GUI-Agenten mit nativer Benutzerinteraktion, MCP-Tool-Integration und Geräte-Cloud-Kollaborationsfähigkeiten

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI: Realitätszentrierte Foundation GUI Agents

Übersicht

MAI-UI ist eine umfassende Familie von Foundation GUI Agents, die vom Tongyi Lab von Alibaba entwickelt wurde und das gesamte Spektrum von Modellgrößen von 2B bis 235B-A22B Parametern abdeckt. Das Projekt stellt einen bedeutenden Fortschritt dar, um GUI Agents durch innovative Ansätze für Benutzerinteraktion, Tool-Integration und Deployment-Architektur für den realen Einsatz praktikabel zu machen.

Hauptmerkmale & Innovationen

1. Multi-Scale Foundation Models

Modellvarianten: 2B, 8B, 32B und 235B-A22B Parameter
Basisarchitektur: Basiert auf Qwen3-VL multimodalen Large Language Models
Trainingsansatz: Gemeinsames überwachtes Fine-Tuning und Reinforcement Learning
Deployment-Flexibilität: Geeignet für verschiedene Hardwarebeschränkungen und Leistungsanforderungen

2. Erweiterter Aktionsraum

MAI-UI führt drei kritische Fähigkeiten über traditionelle GUI-Operationen hinaus ein:

Agent-Benutzer-Interaktion

ask_user-Aktion: Fordert proaktiv Klärung für mehrdeutige Anweisungen an
Dynamische Konversation: Behandelt unvollständige oder unklare Benutzeranforderungen
Reale Anwendbarkeit: Adressiert das häufige Szenario, in dem Benutzeranweisungen nicht spezifisch genug sind

MCP Tool-Integration

mcp_call-Aktion: Direkte Aufrufung externer Tools über das Model Context Protocol
API-Level-Operationen: Effiziente Alternativen zu komplexen UI-Manipulationen
Erweiterte Funktionalität: Zugriff auf Dienste wie Mapping, Dateiverwaltung und Datenabruf

Geräte-Cloud-Kollaboration

Intelligentes Routing: Dynamische Auswahl zwischen On-Device- und Cloud-Ausführung
Datenschutz: Sensible Operationen bleiben lokal, während die Cloud für komplexe Aufgaben genutzt wird
Kostenoptimierung: Reduziert Cloud-API-Aufrufe um über 40%

3. Sich selbst entwickelnde Datenpipeline

Autonome Datengenerierung: Kontinuierliche Verbesserung des Trainingskorpus
Multi-Agenten-Kollaboration: Kombination von menschlichen Annotationen und modellgenerierten Trajektorien
Qualitätsfilterung: Bewertungsmodelle bewerten und behalten qualitativ hochwertige Ausführungspfade
Dynamische Anpassung: Trainingsdaten entwickeln sich mit den Modellfähigkeiten weiter

4. Groß angelegtes Online Reinforcement Learning

Massive Parallelisierung: Bis zu 512 parallele Android-Umgebungen
Erweiterter Kontext: Unterstützung für bis zu 50 Umweltschritte
Signifikante Verbesserungen: +5,2 Punkte durch Umweltskalierung, +4,3 Punkte durch Erhöhung des Schrittbudgets
Reale Robustheit: Training in dynamischen Umgebungen mit Pop-ups, Anzeigen und UI-Änderungen

Leistungserfolge

GUI Grounding Benchmarks

ScreenSpot-Pro: 73,5% Genauigkeit (übertrifft Gemini-3-Pro und Seed1.8)
MMBench GUI L2: 91,3% Genauigkeit
OSWorld-G: 70,9% Genauigkeit
UI-Vision: 49,2% Genauigkeit

Mobile Navigation Benchmarks

AndroidWorld: 76,7% Erfolgsrate (neuer SOTA, übertrifft UI-Tars-2, Gemini-2.5-Pro und Seed1.8)
MobileWorld: 41,7% Erfolgsrate (20,8 Punkte Verbesserung gegenüber den stärksten Baselines)

Geräte-Cloud-Kollaborationsergebnisse

Leistungsverbesserung: 33% Verbesserung der On-Device-Leistung
Kostenreduzierung: Über 40% Reduzierung der Cloud-Modellaufrufe
Datenschutz: 40,5% der Aufgaben wurden vollständig auf dem Gerät erledigt

Technische Architektur

Modell-Fundament

Backbone: Qwen3-VL multimodale Architektur
Eingabemodalitäten: Natürliche Sprachbefehle und gerenderte UI-Screenshots
Ausgabe: Strukturierte Aktionen für Live-Android-Geräte
Aktionsraum: Klicken, Wischen, Texteingabe, Systemtasten sowie erweiterte Interaktionsmöglichkeiten

Trainingsmethodik

Überwachtes Fine-Tuning: Erstes Training auf kuratierten GUI Grounding- und Navigationsdaten
Online Reinforcement Learning: Kontinuierliche Verbesserung durch Interaktion mit Live-Umgebungen
Sich selbst entwickelnde Pipeline: Autonome Datengenerierung und Qualitätsverbesserung
Mehrdimensionale Integration: Benutzerinteraktionen, MCP-Toolaufrufe und traditionelle GUI-Operationen

Deployment-System

Hybride Architektur: Nahtlose Integration von On-Device- und Cloud-Modellen
Aufgabenorientiertes Routing: Intelligente Entscheidungsfindung basierend auf Aufgabenschwierigkeit und Datenschutzanforderungen
Datenschutzorientiertes Design: Sensible Operationen bleiben lokal, während komplexe Aufgaben die Cloud nutzen
Kostenoptimierung: Effiziente Ressourcennutzung durch intelligente Arbeitslastverteilung

Reale Anwendungen

Heim- und Privatnutzung

Intelligentes Einkaufen: Proaktive Vorschläge basierend auf Kalenderintegration
Aufgabenautomatisierung: Komplexe Multi-App-Workflows für tägliche Aktivitäten
Kontextbezogene Unterstützung: Verständnis der Benutzerabsicht durch natürliche Konversation

Professionelle und Büronutzung

Dokumentenverwaltung: Intelligente Dateiverarbeitung und -freigabe
Kommunikationsunterstützung: E-Mail-Erstellung mit Kontextbewusstsein
App-übergreifende Integration: Nahtlose Workflows über mehrere Anwendungen hinweg

Navigations- und Standortdienste

Routenplanung: Integration mit Kartendiensten über MCP-Tools
Standortbezogene Vorschläge: Kontextsensitive Empfehlungen
Multimodale Transportmittel: Unterstützung für verschiedene Transportmittel

Technische Spezifikationen

Anforderungen

vLLM: Version ≥0.11.0
Transformers: Version ≥4.57.0
Python: Kompatibel mit dem Standard-ML-Ökosystem
Hardware: Skalierbar von mobilen Geräten bis zur Cloud-Infrastruktur

Verfügbare Modelle

MAI-UI-2B: Leichtgewichtiges Modell für ressourcenbeschränkte Umgebungen
MAI-UI-8B: Ausgewogene Leistung und Effizienz
Größere Varianten: 32B und 235B-A22B für maximale Leistungsfähigkeit

Integrationsoptionen

API-Dienst: OpenAI-kompatible Schnittstelle über vLLM
Direkte Integration: Python SDK für benutzerdefinierte Anwendungen
Container-Deployment: Docker-Unterstützung für skalierbares Deployment

Forschungseinfluss

Benchmark-Führerschaft

MAI-UI etabliert neue State-of-the-Art-Leistungen über mehrere maßgebliche Benchmarks hinweg und demonstriert sowohl theoretische Fortschritte als auch praktische Anwendbarkeit.

Methodische Beiträge

Geräte-Cloud-Kollaboration: Neue Deployment-Architektur für GUI Agents
Sich selbst entwickelnde Daten: Autonome Verbesserung von Trainingsdatensätzen
Erweitertes Interaktionsmodell: Native Unterstützung für Benutzerdialoge und Tool-Integration

Branchenanwendungen

Das Projekt adressiert reale Deployment-Herausforderungen, die die Akzeptanz von GUI Agents historisch eingeschränkt haben, und macht es somit für Produktionsumgebungen geeignet.

Open-Source-Verpflichtung

Lizenzierung

Apache License 2.0: Permissive Lizenzierung für kommerzielle und Forschungszwecke
Drittanbieterkomponenten: Klar dokumentiert mit entsprechenden Quellenangaben
Community-Beitrag: Offenes Entwicklungsmodell, das die Zusammenarbeit fördert

Verfügbare Ressourcen

Modelle: MAI-UI-2B und MAI-UI-8B auf Hugging Face
Code: Vollständige Implementierung auf GitHub
Dokumentation: Umfassende technische Berichte und Nutzungshandbücher
Benchmarks: MobileWorld Benchmark zur Evaluierung

Zukünftige Richtungen

Forschungserweiterungen

Größere Modellvarianten: Fortlaufende Entwicklung der 32B- und 235B-Modelle
Plattformübergreifende Unterstützung: Erweiterung über Android hinaus auf iOS und Desktop-Plattformen
Erweiterte Tool-Integration: Breiteres MCP-Tool-Ökosystem

Kommerzielle Anwendungen

Unternehmens-Deployment: Integration in Geschäfts-Workflows
Barrierefreiheitslösungen: Unterstützung für Menschen mit Behinderungen
Produktivitätssteigerung: Fortschrittliche Automatisierung für Wissensarbeiter

Zitierinformationen

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

Kontaktinformationen

Projektleiter: Hanzhang Zhou (hanzhang.zhou@alibaba-inc.com)
Technischer Leiter: Xu Zhang (hanguang.zx@alibaba-inc.com)
Forschungsdirektor: Yue Wang (yue.w@alibaba-inc.com)
Institution: Tongyi Lab, Alibaba Group

Zusätzliche Ressourcen

Projekt-Website: https://tongyi-mai.github.io/MAI-UI/
GitHub-Repository: https://github.com/Tongyi-MAI/MAI-UI
Hugging Face Modelle: https://huggingface.co/Tongyi-MAI
Technisches Paper: https://arxiv.org/abs/2512.22047
MobileWorld Benchmark: https://github.com/Tongyi-MAI/MobileWorld