Praxisorientierte Basis-GUI-Agenten mit nativer Benutzerinteraktion, MCP-Tool-Integration und Geräte-Cloud-Kollaborationsfähigkeiten

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI: Realitätszentrierte Foundation GUI Agents

Übersicht

MAI-UI ist eine umfassende Familie von Foundation GUI Agents, die vom Tongyi Lab von Alibaba entwickelt wurde und das gesamte Spektrum von Modellgrößen von 2B bis 235B-A22B Parametern abdeckt. Das Projekt stellt einen bedeutenden Fortschritt dar, um GUI Agents durch innovative Ansätze für Benutzerinteraktion, Tool-Integration und Deployment-Architektur für den realen Einsatz praktikabel zu machen.

Hauptmerkmale & Innovationen

1. Multi-Scale Foundation Models

  • Modellvarianten: 2B, 8B, 32B und 235B-A22B Parameter
  • Basisarchitektur: Basiert auf Qwen3-VL multimodalen Large Language Models
  • Trainingsansatz: Gemeinsames überwachtes Fine-Tuning und Reinforcement Learning
  • Deployment-Flexibilität: Geeignet für verschiedene Hardwarebeschränkungen und Leistungsanforderungen

2. Erweiterter Aktionsraum

MAI-UI führt drei kritische Fähigkeiten über traditionelle GUI-Operationen hinaus ein:

Agent-Benutzer-Interaktion

  • ask_user-Aktion: Fordert proaktiv Klärung für mehrdeutige Anweisungen an
  • Dynamische Konversation: Behandelt unvollständige oder unklare Benutzeranforderungen
  • Reale Anwendbarkeit: Adressiert das häufige Szenario, in dem Benutzeranweisungen nicht spezifisch genug sind

MCP Tool-Integration

  • mcp_call-Aktion: Direkte Aufrufung externer Tools über das Model Context Protocol
  • API-Level-Operationen: Effiziente Alternativen zu komplexen UI-Manipulationen
  • Erweiterte Funktionalität: Zugriff auf Dienste wie Mapping, Dateiverwaltung und Datenabruf

Geräte-Cloud-Kollaboration

  • Intelligentes Routing: Dynamische Auswahl zwischen On-Device- und Cloud-Ausführung
  • Datenschutz: Sensible Operationen bleiben lokal, während die Cloud für komplexe Aufgaben genutzt wird
  • Kostenoptimierung: Reduziert Cloud-API-Aufrufe um über 40%

3. Sich selbst entwickelnde Datenpipeline

  • Autonome Datengenerierung: Kontinuierliche Verbesserung des Trainingskorpus
  • Multi-Agenten-Kollaboration: Kombination von menschlichen Annotationen und modellgenerierten Trajektorien
  • Qualitätsfilterung: Bewertungsmodelle bewerten und behalten qualitativ hochwertige Ausführungspfade
  • Dynamische Anpassung: Trainingsdaten entwickeln sich mit den Modellfähigkeiten weiter

4. Groß angelegtes Online Reinforcement Learning

  • Massive Parallelisierung: Bis zu 512 parallele Android-Umgebungen
  • Erweiterter Kontext: Unterstützung für bis zu 50 Umweltschritte
  • Signifikante Verbesserungen: +5,2 Punkte durch Umweltskalierung, +4,3 Punkte durch Erhöhung des Schrittbudgets
  • Reale Robustheit: Training in dynamischen Umgebungen mit Pop-ups, Anzeigen und UI-Änderungen

Leistungserfolge

GUI Grounding Benchmarks

  • ScreenSpot-Pro: 73,5% Genauigkeit (übertrifft Gemini-3-Pro und Seed1.8)
  • MMBench GUI L2: 91,3% Genauigkeit
  • OSWorld-G: 70,9% Genauigkeit
  • UI-Vision: 49,2% Genauigkeit

Mobile Navigation Benchmarks

  • AndroidWorld: 76,7% Erfolgsrate (neuer SOTA, übertrifft UI-Tars-2, Gemini-2.5-Pro und Seed1.8)
  • MobileWorld: 41,7% Erfolgsrate (20,8 Punkte Verbesserung gegenüber den stärksten Baselines)

Geräte-Cloud-Kollaborationsergebnisse

  • Leistungsverbesserung: 33% Verbesserung der On-Device-Leistung
  • Kostenreduzierung: Über 40% Reduzierung der Cloud-Modellaufrufe
  • Datenschutz: 40,5% der Aufgaben wurden vollständig auf dem Gerät erledigt

Technische Architektur

Modell-Fundament

  • Backbone: Qwen3-VL multimodale Architektur
  • Eingabemodalitäten: Natürliche Sprachbefehle und gerenderte UI-Screenshots
  • Ausgabe: Strukturierte Aktionen für Live-Android-Geräte
  • Aktionsraum: Klicken, Wischen, Texteingabe, Systemtasten sowie erweiterte Interaktionsmöglichkeiten

Trainingsmethodik

  1. Überwachtes Fine-Tuning: Erstes Training auf kuratierten GUI Grounding- und Navigationsdaten
  2. Online Reinforcement Learning: Kontinuierliche Verbesserung durch Interaktion mit Live-Umgebungen
  3. Sich selbst entwickelnde Pipeline: Autonome Datengenerierung und Qualitätsverbesserung
  4. Mehrdimensionale Integration: Benutzerinteraktionen, MCP-Toolaufrufe und traditionelle GUI-Operationen

Deployment-System

  • Hybride Architektur: Nahtlose Integration von On-Device- und Cloud-Modellen
  • Aufgabenorientiertes Routing: Intelligente Entscheidungsfindung basierend auf Aufgabenschwierigkeit und Datenschutzanforderungen
  • Datenschutzorientiertes Design: Sensible Operationen bleiben lokal, während komplexe Aufgaben die Cloud nutzen
  • Kostenoptimierung: Effiziente Ressourcennutzung durch intelligente Arbeitslastverteilung

Reale Anwendungen

Heim- und Privatnutzung

  • Intelligentes Einkaufen: Proaktive Vorschläge basierend auf Kalenderintegration
  • Aufgabenautomatisierung: Komplexe Multi-App-Workflows für tägliche Aktivitäten
  • Kontextbezogene Unterstützung: Verständnis der Benutzerabsicht durch natürliche Konversation

Professionelle und Büronutzung

  • Dokumentenverwaltung: Intelligente Dateiverarbeitung und -freigabe
  • Kommunikationsunterstützung: E-Mail-Erstellung mit Kontextbewusstsein
  • App-übergreifende Integration: Nahtlose Workflows über mehrere Anwendungen hinweg

Navigations- und Standortdienste

  • Routenplanung: Integration mit Kartendiensten über MCP-Tools
  • Standortbezogene Vorschläge: Kontextsensitive Empfehlungen
  • Multimodale Transportmittel: Unterstützung für verschiedene Transportmittel

Technische Spezifikationen

Anforderungen

  • vLLM: Version ≥0.11.0
  • Transformers: Version ≥4.57.0
  • Python: Kompatibel mit dem Standard-ML-Ökosystem
  • Hardware: Skalierbar von mobilen Geräten bis zur Cloud-Infrastruktur

Verfügbare Modelle

  • MAI-UI-2B: Leichtgewichtiges Modell für ressourcenbeschränkte Umgebungen
  • MAI-UI-8B: Ausgewogene Leistung und Effizienz
  • Größere Varianten: 32B und 235B-A22B für maximale Leistungsfähigkeit

Integrationsoptionen

  • API-Dienst: OpenAI-kompatible Schnittstelle über vLLM
  • Direkte Integration: Python SDK für benutzerdefinierte Anwendungen
  • Container-Deployment: Docker-Unterstützung für skalierbares Deployment

Forschungseinfluss

Benchmark-Führerschaft

MAI-UI etabliert neue State-of-the-Art-Leistungen über mehrere maßgebliche Benchmarks hinweg und demonstriert sowohl theoretische Fortschritte als auch praktische Anwendbarkeit.

Methodische Beiträge

  • Geräte-Cloud-Kollaboration: Neue Deployment-Architektur für GUI Agents
  • Sich selbst entwickelnde Daten: Autonome Verbesserung von Trainingsdatensätzen
  • Erweitertes Interaktionsmodell: Native Unterstützung für Benutzerdialoge und Tool-Integration

Branchenanwendungen

Das Projekt adressiert reale Deployment-Herausforderungen, die die Akzeptanz von GUI Agents historisch eingeschränkt haben, und macht es somit für Produktionsumgebungen geeignet.

Open-Source-Verpflichtung

Lizenzierung

  • Apache License 2.0: Permissive Lizenzierung für kommerzielle und Forschungszwecke
  • Drittanbieterkomponenten: Klar dokumentiert mit entsprechenden Quellenangaben
  • Community-Beitrag: Offenes Entwicklungsmodell, das die Zusammenarbeit fördert

Verfügbare Ressourcen

  • Modelle: MAI-UI-2B und MAI-UI-8B auf Hugging Face
  • Code: Vollständige Implementierung auf GitHub
  • Dokumentation: Umfassende technische Berichte und Nutzungshandbücher
  • Benchmarks: MobileWorld Benchmark zur Evaluierung

Zukünftige Richtungen

Forschungserweiterungen

  • Größere Modellvarianten: Fortlaufende Entwicklung der 32B- und 235B-Modelle
  • Plattformübergreifende Unterstützung: Erweiterung über Android hinaus auf iOS und Desktop-Plattformen
  • Erweiterte Tool-Integration: Breiteres MCP-Tool-Ökosystem

Kommerzielle Anwendungen

  • Unternehmens-Deployment: Integration in Geschäfts-Workflows
  • Barrierefreiheitslösungen: Unterstützung für Menschen mit Behinderungen
  • Produktivitätssteigerung: Fortschrittliche Automatisierung für Wissensarbeiter

Zitierinformationen

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

Kontaktinformationen

Zusätzliche Ressourcen

Star History Chart