Eine leistungsstarke Familie multimodaler GUI-Automatisierungsagenten, die End-to-End-Operationen auf mobilen Geräten und PC-Plattformen unterstützt.
Detaillierte Projektbeschreibung: Mobile-Agent
Projektübersicht
Mobile-Agent, entwickelt vom Alibaba X-PLUG Team, ist eine leistungsstarke Familie von GUI-Agenten und ein End-to-End multimodales Agentensystem, das speziell für mobile Geräte und PC-Plattformen konzipiert wurde. Das Projekt zielt darauf ab, die GUI-Automatisierung zu realisieren, indem es verschiedene Anwendungen durch visuelle Wahrnehmung, Schlussfolgerungsplanung und Aktionsausführung autonom bedient.
Projektarchitektur und Komponenten
Kernkomponenten-Serie
1. GUI-Owl Grundlagenmodell
GUI-Owl ist ein grundlegendes GUI-Agentenmodell, das in zehn GUI-Benchmarks die Spitzenleistung unter den Open-Source-End-to-End-Modellen erreicht hat. Dies umfasst Lokalisierung, Frage-Antwort, Planung, Entscheidungsfindung und prozedurales Wissen in Desktop- und mobilen Umgebungen. GUI-Owl-7B erreicht 66,4 Punkte auf AndroidWorld und 29,4 Punkte auf OSWorld.
2. Mobile-Agent-v3
Mobile-Agent-v3 ist ein plattformübergreifendes Multi-Agenten-Framework, das auf GUI-Owl basiert und Funktionen wie Planung, Fortschrittsmanagement, Reflexion und Gedächtnis bietet. Es ist ein nativer End-to-End multimodaler Agent, der als Grundlagenmodell für die GUI-Automatisierung konzipiert wurde und Wahrnehmung, Lokalisierung, Schlussfolgerung, Planung und Aktionsausführung in einem einzigen Policy-Netzwerk vereint.
3. Mobile-Agent-E
Mobile-Agent-E ist ein hierarchisches Multi-Agenten-Framework mit Selbstentwicklungsfähigkeit, das durch vergangene Erfahrungen selbstständig lernen und sich verbessern kann und bei komplexen Multi-Anwendungsaufgaben eine stärkere Leistung zeigt.
4. PC-Agent
PC-Agent ist ein kollaboratives Multi-Agenten-System, das die Automatisierung von Produktivitätsszenarien (z.B. Chrome, Word und WeChat) basierend auf Benutzeranweisungen ermöglicht. Ein aktives Wahrnehmungsmodul, das speziell für dichte und vielfältige Interaktionselemente entwickelt wurde, passt sich besser an die PC-Plattform an. Eine hierarchische Multi-Agenten-Kollaborationsstruktur erhöht die Erfolgsrate bei komplexeren Aufgabenabfolgen. Es unterstützt jetzt sowohl Windows als auch Mac.
5. Mobile-Agent-v2
Mobile-Agent-v2 ist ein Bedienungsassistent für mobile Geräte, der eine effektive Navigation durch Multi-Agenten-Kollaboration ermöglicht. Die Multi-Agenten-Architektur löst Navigationsherausforderungen in Szenarien mit langen Kontexteingaben. Ein verbessertes visuelles Wahrnehmungsmodul erhöht die Betriebsgenauigkeit erheblich.
Technische Merkmale
Kerntechnologische Vorteile
- Plattformübergreifende Kompatibilität: Unterstützt mehrere Plattformen wie Android, iOS, Windows, Mac.
- Visuelle Wahrnehmungsfähigkeit: Nutzt visuelle Wahrnehmungstools, um visuelle und textliche Elemente in der Frontend-Oberfläche von Anwendungen genau zu identifizieren und zu lokalisieren.
- Multimodales Verständnis: Kombiniert visuelles und sprachliches Verständnis für komplexe Aufgabeninferenz.
- End-to-End-Betrieb: Ein vollständiger Automatisierungsprozess von der Aufgabenverständnis bis zur Ausführung.
- Selbstentwicklung: Kontinuierliche Leistungsverbesserung durch Erfahrungslernen.
Technische Innovationspunkte
Die drei Innovationen von GUI-Owl
- Großskalige Umgebungs-Infrastruktur: Eine cloudbasierte virtuelle Umgebung, die Android, Ubuntu, macOS und Windows umfasst und ein selbstentwickelndes GUI-Trajektorien-Produktionsframework unterstützt.
- Vielfältige grundlegende Agentenfähigkeiten: Integration von UI-Lokalisierung, Planung, Aktionssemantik und Inferenzmodi zur Unterstützung der End-to-End-Entscheidungsfindung.
- Skalierbares Reinforcement Learning für Umgebungen: Entwicklung eines skalierbaren Reinforcement-Learning-Frameworks mit vollständig asynchronem Training für die Ausrichtung an der realen Welt.
Leistungsmerkmale
Benchmark-Ergebnisse
- Mobile-Agent-v3 erreicht 73,3 Punkte auf AndroidWorld und 37,7 Punkte auf OSWorld und setzt damit einen neuen State-of-the-Art-Standard für Open-Source-GUI-Agenten-Frameworks.
- Erzielt SOTA-Leistung in mehreren GUI-Automatisierungs-Bewertungslisten, darunter ScreenSpot-V2, ScreenSpot-Pro, OSWorld-G, MMBench-GUI, Android Control, Android World und OSWorld.
Systemleistungsoptimierung
- Geringer Speicherverbrauch (8 GB)
- Schnelle Inferenzgeschwindigkeit (10-15 Sekunden pro Operation)
- Ausschließlich Open-Source-Modelle
Technische Implementierung
Umgebungsanforderungen
# Grundlegende Umgebungseinstellungen
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt
Android-Plattformkonfiguration
- Android Debug Bridge (ADB) herunterladen.
- ADB-Debugging auf dem Android-Telefon aktivieren.
- Telefon mit einem Datenkabel an den Computer anschließen und "Dateien übertragen" auswählen.
- ADB-Umgebung testen:
/path/to/adb devices
PC-Plattformkonfiguration
# Windows-Umgebung
pip install -r requirements.txt
# Mac-Umgebung
pip install -r requirements_mac.txt
API-Konfiguration
{
"vl_model_name": "gpt-4o",
"llm_model_name": "gpt-4o",
"token": "sk-...",
"url": "https://api.openai.com/v1"
}
Anwendungsszenarien
Unterstützte Operationstypen
- Mobile App-Operationen: Klicken, Wischen, Texteingabe, App-Wechsel.
- PC App-Operationen: Browsersteuerung, Bedienung von Bürosoftware, Nutzung von Kommunikationssoftware.
- App-übergreifende Aufgaben: Komplexe Arbeitsabläufe zwischen mehreren Anwendungen.
- Komplexe Inferenzaufgaben: Langfristige Aufgaben, die mehrstufige Schlussfolgerungen erfordern.
Praktische Anwendungsbeispiele
- Online-Shopping: Produkte suchen, Preise vergleichen, in den Warenkorb legen.
- Informationsabfrage: Nachrichten suchen, Sportergebnisse abrufen.
- Büroautomatisierung: Dokumente verfassen, E-Mails senden, Daten verarbeiten.
- Soziale Medien: Inhalte posten, Nachrichten beantworten, Informationen teilen.
Akademische Errungenschaften
Veröffentlichte Papiere
- Mobile-Agent-v3 (2025): Foundamental Agents for GUI Automation
- PC-Agent (ICLR 2025 Workshop): A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
- Mobile-Agent-E (2025): Self-Evolving Mobile Assistant for Complex Tasks
- Mobile-Agent-v2 (NeurIPS 2024): Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
- Mobile-Agent (ICLR 2024 Workshop): Autonomous Multi-Modal Mobile Device Agent with Visual Perception
Auszeichnungen
- Best Demo Award bei der 24. Chinesischen Konferenz für Computerlinguistik (CCL 2025)
- Best Demo Award bei der 23. Chinesischen Konferenz für Computerlinguistik (CCL 2024)
Evaluierungs-Benchmarks
Mobile-Eval Benchmark
Mobile-Eval ist ein Benchmark zur Bewertung der Leistung von mobilen Geräteagenten, der 10 gängige Einzelanwendungsszenarien und 1 Multi-Anwendungsszenario umfasst. Für jedes Szenario wurden drei Anweisungstypen entworfen.
Beispiele für Testszenarien
- Einkaufsaufgabe: Einen Hut auf der Alibaba-Website finden und in den Warenkorb legen.
- Musikwiedergabe: Den Sänger Jay Chou in Amazon Music suchen.
- Informationsabfrage: Die Ergebnisse des heutigen Lakers-Spiels suchen.
- E-Mail senden: Eine leere E-Mail an eine bestimmte Adresse senden.
Technologie-Stack
Kerntechnologien
- Multimodale große Sprachmodelle: GPT-4V, Qwen-VL usw.
- Visuelle Wahrnehmung: CLIP, GroundingDINO usw.
- Reinforcement Learning: Trajectory-aware Relative Policy Optimization (TRPO)
- Multi-Agenten-Framework: Hierarchische Kollaborationsarchitektur
Unterstützte Plattformen
- Mobile Plattformen: Android, HarmonyOS (≤ Version 4)
- Desktop-Plattformen: Windows, macOS, Ubuntu
- Browser: Chrome und andere gängige Browser
- Bürosoftware: Word, Excel, PowerPoint usw.
Open-Source-Informationen
Repository-Struktur
MobileAgent/
├── Mobile-Agent/ # Originalversion
├── Mobile-Agent-v2/ # Multi-Agenten-Kollaborationsversion
├── Mobile-Agent-v3/ # Neueste Version basierend auf GUI-Owl
├── Mobile-Agent-E/ # Selbstentwickelnde Version
├── PC-Agent/ # PC-Plattformversion
└── requirements.txt # Abhängigkeitspakete
Modellveröffentlichung
- GUI-Owl-7B und GUI-Owl-32B Modell-Checkpoints wurden veröffentlicht.
- Unterstützt die Bereitstellung auf HuggingFace und ModelScope Plattformen.
- Bietet eine Online-Demo-Erfahrung.
Community und Ökosystem
Online-Demo
Verwandte Projekte
- AppAgent: Multimodaler Agent als Smartphone-Benutzer
- mPLUG-Owl: Modulares multimodales großes Sprachmodell
- Qwen-VL: Allgemeines visuelles Sprachmodell
- GroundingDINO: Open-Set-Objekterkennung
Zukünftige Entwicklung
Dieses Projekt repräsentiert die Spitzenentwicklung im Bereich der GUI-Automatisierungsagenten und ebnet durch kontinuierliche technische Innovation und Leistungsoptimierung den Weg für die Realisierung echter allgemeiner KI-Assistenten. Mit der Verbesserung der Modellfähigkeiten und der Erweiterung der Anwendungsszenarien wird Mobile-Agent voraussichtlich in mehr realen Szenarien eine wichtige Rolle spielen.