X-PLUG/MobileAgentView GitHub Homepage for Latest Official Releases

Eine leistungsstarke Familie multimodaler GUI-Automatisierungsagenten, die End-to-End-Operationen auf mobilen Geräten und PC-Plattformen unterstützt.

MITPythonMobileAgentX-PLUG 5.6k Last Updated: September 11, 2025

Detaillierte Projektbeschreibung: Mobile-Agent

Projektübersicht

Mobile-Agent, entwickelt vom Alibaba X-PLUG Team, ist eine leistungsstarke Familie von GUI-Agenten und ein End-to-End multimodales Agentensystem, das speziell für mobile Geräte und PC-Plattformen konzipiert wurde. Das Projekt zielt darauf ab, die GUI-Automatisierung zu realisieren, indem es verschiedene Anwendungen durch visuelle Wahrnehmung, Schlussfolgerungsplanung und Aktionsausführung autonom bedient.

Projektarchitektur und Komponenten

Kernkomponenten-Serie

1. GUI-Owl Grundlagenmodell

GUI-Owl ist ein grundlegendes GUI-Agentenmodell, das in zehn GUI-Benchmarks die Spitzenleistung unter den Open-Source-End-to-End-Modellen erreicht hat. Dies umfasst Lokalisierung, Frage-Antwort, Planung, Entscheidungsfindung und prozedurales Wissen in Desktop- und mobilen Umgebungen. GUI-Owl-7B erreicht 66,4 Punkte auf AndroidWorld und 29,4 Punkte auf OSWorld.

2. Mobile-Agent-v3

Mobile-Agent-v3 ist ein plattformübergreifendes Multi-Agenten-Framework, das auf GUI-Owl basiert und Funktionen wie Planung, Fortschrittsmanagement, Reflexion und Gedächtnis bietet. Es ist ein nativer End-to-End multimodaler Agent, der als Grundlagenmodell für die GUI-Automatisierung konzipiert wurde und Wahrnehmung, Lokalisierung, Schlussfolgerung, Planung und Aktionsausführung in einem einzigen Policy-Netzwerk vereint.

3. Mobile-Agent-E

Mobile-Agent-E ist ein hierarchisches Multi-Agenten-Framework mit Selbstentwicklungsfähigkeit, das durch vergangene Erfahrungen selbstständig lernen und sich verbessern kann und bei komplexen Multi-Anwendungsaufgaben eine stärkere Leistung zeigt.

4. PC-Agent

PC-Agent ist ein kollaboratives Multi-Agenten-System, das die Automatisierung von Produktivitätsszenarien (z.B. Chrome, Word und WeChat) basierend auf Benutzeranweisungen ermöglicht. Ein aktives Wahrnehmungsmodul, das speziell für dichte und vielfältige Interaktionselemente entwickelt wurde, passt sich besser an die PC-Plattform an. Eine hierarchische Multi-Agenten-Kollaborationsstruktur erhöht die Erfolgsrate bei komplexeren Aufgabenabfolgen. Es unterstützt jetzt sowohl Windows als auch Mac.

5. Mobile-Agent-v2

Mobile-Agent-v2 ist ein Bedienungsassistent für mobile Geräte, der eine effektive Navigation durch Multi-Agenten-Kollaboration ermöglicht. Die Multi-Agenten-Architektur löst Navigationsherausforderungen in Szenarien mit langen Kontexteingaben. Ein verbessertes visuelles Wahrnehmungsmodul erhöht die Betriebsgenauigkeit erheblich.

Technische Merkmale

Kerntechnologische Vorteile

Plattformübergreifende Kompatibilität: Unterstützt mehrere Plattformen wie Android, iOS, Windows, Mac.
Visuelle Wahrnehmungsfähigkeit: Nutzt visuelle Wahrnehmungstools, um visuelle und textliche Elemente in der Frontend-Oberfläche von Anwendungen genau zu identifizieren und zu lokalisieren.
Multimodales Verständnis: Kombiniert visuelles und sprachliches Verständnis für komplexe Aufgabeninferenz.
End-to-End-Betrieb: Ein vollständiger Automatisierungsprozess von der Aufgabenverständnis bis zur Ausführung.
Selbstentwicklung: Kontinuierliche Leistungsverbesserung durch Erfahrungslernen.

Technische Innovationspunkte

Die drei Innovationen von GUI-Owl

Großskalige Umgebungs-Infrastruktur: Eine cloudbasierte virtuelle Umgebung, die Android, Ubuntu, macOS und Windows umfasst und ein selbstentwickelndes GUI-Trajektorien-Produktionsframework unterstützt.
Vielfältige grundlegende Agentenfähigkeiten: Integration von UI-Lokalisierung, Planung, Aktionssemantik und Inferenzmodi zur Unterstützung der End-to-End-Entscheidungsfindung.
Skalierbares Reinforcement Learning für Umgebungen: Entwicklung eines skalierbaren Reinforcement-Learning-Frameworks mit vollständig asynchronem Training für die Ausrichtung an der realen Welt.

Leistungsmerkmale

Benchmark-Ergebnisse

Mobile-Agent-v3 erreicht 73,3 Punkte auf AndroidWorld und 37,7 Punkte auf OSWorld und setzt damit einen neuen State-of-the-Art-Standard für Open-Source-GUI-Agenten-Frameworks.
Erzielt SOTA-Leistung in mehreren GUI-Automatisierungs-Bewertungslisten, darunter ScreenSpot-V2, ScreenSpot-Pro, OSWorld-G, MMBench-GUI, Android Control, Android World und OSWorld.

Systemleistungsoptimierung

Geringer Speicherverbrauch (8 GB)
Schnelle Inferenzgeschwindigkeit (10-15 Sekunden pro Operation)
Ausschließlich Open-Source-Modelle

Technische Implementierung

Umgebungsanforderungen

# Grundlegende Umgebungseinstellungen
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt

Android-Plattformkonfiguration

Android Debug Bridge (ADB) herunterladen.
ADB-Debugging auf dem Android-Telefon aktivieren.
Telefon mit einem Datenkabel an den Computer anschließen und "Dateien übertragen" auswählen.
ADB-Umgebung testen: /path/to/adb devices

PC-Plattformkonfiguration

# Windows-Umgebung
pip install -r requirements.txt

# Mac-Umgebung
pip install -r requirements_mac.txt

API-Konfiguration

{
  "vl_model_name": "gpt-4o",
  "llm_model_name": "gpt-4o",
  "token": "sk-...",
  "url": "https://api.openai.com/v1"
}

Anwendungsszenarien

Unterstützte Operationstypen

Mobile App-Operationen: Klicken, Wischen, Texteingabe, App-Wechsel.
PC App-Operationen: Browsersteuerung, Bedienung von Bürosoftware, Nutzung von Kommunikationssoftware.
App-übergreifende Aufgaben: Komplexe Arbeitsabläufe zwischen mehreren Anwendungen.
Komplexe Inferenzaufgaben: Langfristige Aufgaben, die mehrstufige Schlussfolgerungen erfordern.

Praktische Anwendungsbeispiele

Online-Shopping: Produkte suchen, Preise vergleichen, in den Warenkorb legen.
Informationsabfrage: Nachrichten suchen, Sportergebnisse abrufen.
Büroautomatisierung: Dokumente verfassen, E-Mails senden, Daten verarbeiten.
Soziale Medien: Inhalte posten, Nachrichten beantworten, Informationen teilen.

Akademische Errungenschaften

Veröffentlichte Papiere

Mobile-Agent-v3 (2025): Foundamental Agents for GUI Automation
PC-Agent (ICLR 2025 Workshop): A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
Mobile-Agent-E (2025): Self-Evolving Mobile Assistant for Complex Tasks
Mobile-Agent-v2 (NeurIPS 2024): Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
Mobile-Agent (ICLR 2024 Workshop): Autonomous Multi-Modal Mobile Device Agent with Visual Perception

Auszeichnungen

Best Demo Award bei der 24. Chinesischen Konferenz für Computerlinguistik (CCL 2025)
Best Demo Award bei der 23. Chinesischen Konferenz für Computerlinguistik (CCL 2024)

Evaluierungs-Benchmarks

Mobile-Eval Benchmark

Mobile-Eval ist ein Benchmark zur Bewertung der Leistung von mobilen Geräteagenten, der 10 gängige Einzelanwendungsszenarien und 1 Multi-Anwendungsszenario umfasst. Für jedes Szenario wurden drei Anweisungstypen entworfen.

Beispiele für Testszenarien

Einkaufsaufgabe: Einen Hut auf der Alibaba-Website finden und in den Warenkorb legen.
Musikwiedergabe: Den Sänger Jay Chou in Amazon Music suchen.
Informationsabfrage: Die Ergebnisse des heutigen Lakers-Spiels suchen.
E-Mail senden: Eine leere E-Mail an eine bestimmte Adresse senden.

Technologie-Stack

Kerntechnologien

Multimodale große Sprachmodelle: GPT-4V, Qwen-VL usw.
Visuelle Wahrnehmung: CLIP, GroundingDINO usw.
Reinforcement Learning: Trajectory-aware Relative Policy Optimization (TRPO)
Multi-Agenten-Framework: Hierarchische Kollaborationsarchitektur

Unterstützte Plattformen

Mobile Plattformen: Android, HarmonyOS (≤ Version 4)
Desktop-Plattformen: Windows, macOS, Ubuntu
Browser: Chrome und andere gängige Browser
Bürosoftware: Word, Excel, PowerPoint usw.

Open-Source-Informationen

Repository-Struktur

MobileAgent/
├── Mobile-Agent/          # Originalversion
├── Mobile-Agent-v2/       # Multi-Agenten-Kollaborationsversion
├── Mobile-Agent-v3/       # Neueste Version basierend auf GUI-Owl
├── Mobile-Agent-E/        # Selbstentwickelnde Version
├── PC-Agent/             # PC-Plattformversion
└── requirements.txt      # Abhängigkeitspakete

Modellveröffentlichung

GUI-Owl-7B und GUI-Owl-32B Modell-Checkpoints wurden veröffentlicht.
Unterstützt die Bereitstellung auf HuggingFace und ModelScope Plattformen.
Bietet eine Online-Demo-Erfahrung.

Community und Ökosystem

Online-Demo

Zukünftige Entwicklung

Dieses Projekt repräsentiert die Spitzenentwicklung im Bereich der GUI-Automatisierungsagenten und ebnet durch kontinuierliche technische Innovation und Leistungsoptimierung den Weg für die Realisierung echter allgemeiner KI-Assistenten. Mit der Verbesserung der Modellfähigkeiten und der Erweiterung der Anwendungsszenarien wird Mobile-Agent voraussichtlich in mehr realen Szenarien eine wichtige Rolle spielen.