強大的多模態 GUI 自動化智能體家族,支持移動設備和 PC 平台的端到端操作
Mobile-Agent 專案詳細介紹
專案概述
Mobile-Agent 是由阿里巴巴 X-PLUG 團隊開發的強大 GUI 智能體家族,是一個專為行動裝置和 PC 平台設計的端到端多模態智能體系統。該專案旨在實現 GUI 自動化,透過視覺感知、推理規劃和動作執行來自主操作各種應用程式。
專案架構與元件
核心元件系列
1. GUI-Owl 基礎模型
GUI-Owl 是一個基礎的 GUI 智能體模型,在十個 GUI 基準測試中達到了開源端到端模型的最先進效能,涵蓋桌面和行動環境的定位、問答、規劃、決策制定和程式知識。GUI-Owl-7B 在 AndroidWorld 上達到 66.4 分,在 OSWorld 上達到 29.4 分。
2. Mobile-Agent-v3
Mobile-Agent-v3 是基於 GUI-Owl 的跨平台多智能體框架,提供規劃、進度管理、反思和記憶等功能。它是一個原生的端到端多模態智能體,作為 GUI 自動化的基礎模型設計,將感知、定位、推理、規劃和動作執行統一在單一策略網路中。
3. Mobile-Agent-E
Mobile-Agent-E 是一個具有自我演進能力的分層多智能體框架,能夠透過過往經驗實現自我演進,在複雜的多應用程式任務上表現更強。
4. PC-Agent
PC-Agent 是一個多智能體協作系統,可以基於使用者指令實現生產力場景的自動化控制(如 Chrome、Word 和微信)。專為密集和多樣化互動元素設計的主動感知模組更好地適應 PC 平台。分層多智能體合作結構提高了更複雜任務序列的成功率。現在同時支援 Windows 和 Mac。
5. Mobile-Agent-v2
Mobile-Agent-v2 是透過多智能體協作實現有效導航的行動裝置操作助手。多智能體架構解決了長上下文輸入場景中的導航挑戰。增強的視覺感知模組顯著提高了操作準確性。
技術特性
核心技術優勢
- 跨平台相容性:支援 Android、iOS、Windows、Mac 等多個平台
- 視覺感知能力:利用視覺感知工具準確識別和定位應用程式前端介面中的視覺和文本元素
- 多模態理解:結合視覺和語言理解進行複雜任務推理
- 端到端操作:從任務理解到執行的完整自動化流程
- 自我演進:透過經驗學習不斷改進效能
技術創新點
GUI-Owl 的三大創新
- 大規模環境基礎設施:基於雲端的虛擬環境,涵蓋 Android、Ubuntu、macOS 和 Windows,支援自演進 GUI 軌跡生產框架
- 多樣化的基礎智能體能力:整合 UI 定位、規劃、動作語義和推理模式,支援端到端決策制定
- 可擴展環境強化學習:開發了具有完全非同步訓練的可擴展強化學習框架,用於真實世界對齊
效能表現
基準測試成果
- Mobile-Agent-v3 在 AndroidWorld 上達到 73.3 分,在 OSWorld 上達到 37.7 分,為開源 GUI 智能體框架設立了新的最先進標準
- 在多個 GUI 自動化評測榜單中取得 SOTA 效能,包括 ScreenSpot-V2、ScreenSpot-Pro、OSWorld-G、MMBench-GUI、Android Control、Android World 和 OSWorld
系統效能優化
- 記憶體開銷小(8GB)
- 推論速度快(每次操作 10-15 秒)
- 全部使用開源模型
技術實現
環境要求
# 基礎環境設定
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt
Android 平台配置
- 下載 Android Debug Bridge(ADB)
- 在 Android 手機上開啟 ADB 偵錯開關
- 用數據線連接手機到電腦並選擇「傳輸檔案」
- 測試 ADB 環境:
/path/to/adb devices
PC 平台配置
# Windows 環境
pip install -r requirements.txt
# Mac 環境
pip install -r requirements_mac.txt
API 配置
{
"vl_model_name": "gpt-4o",
"llm_model_name": "gpt-4o",
"token": "sk-...",
"url": "https://api.openai.com/v1"
}
應用場景
支援的操作類型
- 行動應用程式操作:點擊、滑動、輸入文本、應用程式切換
- PC 應用程式操作:瀏覽器控制、辦公軟體操作、通訊軟體使用
- 跨應用程式任務:多個應用程式間的複雜工作流程
- 複雜推論任務:需要多步驟推論的長期任務
實際應用範例
- 線上購物:搜尋商品、比較價格、加入購物車
- 資訊查詢:搜尋新聞、獲取體育比賽結果
- 辦公室自動化:編寫文件、傳送郵件、資料處理
- 社群媒體:發布內容、回覆訊息、分享資訊
學術成果
發表論文
- Mobile-Agent-v3 (2025): Foundamental Agents for GUI Automation
- PC-Agent (ICLR 2025 Workshop): A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
- Mobile-Agent-E (2025): Self-Evolving Mobile Assistant for Complex Tasks
- Mobile-Agent-v2 (NeurIPS 2024): Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
- Mobile-Agent (ICLR 2024 Workshop): Autonomous Multi-Modal Mobile Device Agent with Visual Perception
獲獎情況
- 2025 年第 24 屆中國計算語言學大會 (CCL 2025) 最佳演示獎
- 2024 年第 23 屆中國計算語言學大會 (CCL 2024) 最佳演示獎
評估基準
Mobile-Eval 基準
Mobile-Eval 是為評估行動裝置智能體效能而設計的基準,包括 10 個主流單應用程式場景和 1 個多應用程式場景。每個場景設計了三種指令類型。
測試場景範例
- 購物任務:在阿里巴巴網站上尋找帽子並加入購物車
- 音樂播放:在 Amazon Music 中搜尋歌手周杰倫
- 資訊查詢:搜尋今日湖人隊比賽結果
- 郵件傳送:傳送空郵件到指定地址
技術棧
核心技術
- 多模態大型語言模型:GPT-4V、Qwen-VL 等
- 視覺感知:CLIP、GroundingDINO 等
- 強化學習:Trajectory-aware Relative Policy Optimization (TRPO)
- 多智能體框架:分層協作架構
支援平台
- 行動平台:Android、HarmonyOS (≤ 4 版本)
- 桌面平台:Windows、macOS、Ubuntu
- 瀏覽器:Chrome 及其他主流瀏覽器
- 辦公軟體:Word、Excel、PowerPoint 等
開源資訊
儲存庫結構
MobileAgent/
├── Mobile-Agent/ # 原始版本
├── Mobile-Agent-v2/ # 多智能體協作版本
├── Mobile-Agent-v3/ # 基於 GUI-Owl 的最新版本
├── Mobile-Agent-E/ # 自演進版本
├── PC-Agent/ # PC 平台版本
└── requirements.txt # 依賴套件
模型發布
- GUI-Owl-7B 和 GUI-Owl-32B 模型檢查點已發布
- 支援 HuggingFace 和 ModelScope 平台部署
- 提供線上演示體驗
社群與生態
線上體驗
相關專案
- AppAgent:多模態智能體作為智慧型手機使用者
- mPLUG-Owl:模組化多模態大型語言模型
- Qwen-VL:通用視覺語言模型
- GroundingDINO:開放集物體偵測
未來發展
該專案代表了 GUI 自動化智能體的前沿發展方向,透過不斷的技術創新和效能優化,為實現真正的通用人工智慧助手鋪平了道路。隨著模型能力的提升和應用場景的擴展,Mobile-Agent 有望在更多實際場景中發揮重要作用。