强大的多模态GUI自动化智能体家族,支持移动设备和PC平台的端到端操作
Mobile-Agent 项目详细介绍
项目概述
Mobile-Agent是由阿里巴巴X-PLUG团队开发的强大GUI智能体家族,是一个专为移动设备和PC平台设计的端到端多模态智能体系统。该项目旨在实现GUI自动化,通过视觉感知、推理规划和动作执行来自主操作各种应用程序。
项目架构与组件
核心组件系列
1. GUI-Owl 基础模型
GUI-Owl是一个基础的GUI智能体模型,在十个GUI基准测试中达到了开源端到端模型的最先进性能,涵盖桌面和移动环境的定位、问答、规划、决策制定和程序知识。GUI-Owl-7B在AndroidWorld上达到66.4分,在OSWorld上达到29.4分。
2. Mobile-Agent-v3
Mobile-Agent-v3是基于GUI-Owl的跨平台多智能体框架,提供规划、进度管理、反思和记忆等功能。它是一个原生的端到端多模态智能体,作为GUI自动化的基础模型设计,将感知、定位、推理、规划和动作执行统一在单一策略网络中。
3. Mobile-Agent-E
Mobile-Agent-E是一个具有自我进化能力的分层多智能体框架,能够通过过往经验实现自我进化,在复杂的多应用任务上表现更强。
4. PC-Agent
PC-Agent是一个多智能体协作系统,可以基于用户指令实现生产力场景的自动化控制(如Chrome、Word和微信)。专为密集和多样化交互元素设计的主动感知模块更好地适应PC平台。分层多智能体合作结构提高了更复杂任务序列的成功率。现在同时支持Windows和Mac。
5. Mobile-Agent-v2
Mobile-Agent-v2是通过多智能体协作实现有效导航的移动设备操作助手。多智能体架构解决了长上下文输入场景中的导航挑战。增强的视觉感知模块显著提高了操作准确性。
技术特性
核心技术优势
- 跨平台兼容性:支持Android、iOS、Windows、Mac等多个平台
- 视觉感知能力:利用视觉感知工具准确识别和定位应用前端界面中的视觉和文本元素
- 多模态理解:结合视觉和语言理解进行复杂任务推理
- 端到端操作:从任务理解到执行的完整自动化流程
- 自我进化:通过经验学习不断改进性能
技术创新点
GUI-Owl的三大创新
- 大规模环境基础设施:基于云的虚拟环境,涵盖Android、Ubuntu、macOS和Windows,支持自进化GUI轨迹生产框架
- 多样化的基础智能体能力:集成UI定位、规划、动作语义和推理模式,支持端到端决策制定
- 可扩展环境强化学习:开发了具有完全异步训练的可扩展强化学习框架,用于现实世界对齐
性能表现
基准测试成果
- Mobile-Agent-v3在AndroidWorld上达到73.3分,在OSWorld上达到37.7分,为开源GUI智能体框架设立了新的最先进标准
- 在多个GUI自动化评测榜单中取得SOTA性能,包括ScreenSpot-V2、ScreenSpot-Pro、OSWorld-G、MMBench-GUI、Android Control、Android World和OSWorld
系统性能优化
- 内存开销小(8GB)
- 推理速度快(每次操作10-15秒)
- 全部使用开源模型
技术实现
环境要求
# 基础环境设置
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt
Android平台配置
- 下载Android Debug Bridge(ADB)
- 在Android手机上开启ADB调试开关
- 用数据线连接手机到电脑并选择"传输文件"
- 测试ADB环境:
/path/to/adb devices
PC平台配置
# Windows环境
pip install -r requirements.txt
# Mac环境
pip install -r requirements_mac.txt
API配置
{
"vl_model_name": "gpt-4o",
"llm_model_name": "gpt-4o",
"token": "sk-...",
"url": "https://api.openai.com/v1"
}
应用场景
支持的操作类型
- 移动应用操作:点击、滑动、输入文本、应用切换
- PC应用操作:浏览器控制、办公软件操作、通讯软件使用
- 跨应用任务:多个应用间的复杂工作流程
- 复杂推理任务:需要多步骤推理的长期任务
实际应用示例
- 在线购物:搜索商品、比较价格、加入购物车
- 信息查询:搜索新闻、获取体育比赛结果
- 办公自动化:编写文档、发送邮件、数据处理
- 社交媒体:发布内容、回复消息、分享信息
学术成果
发表论文
- Mobile-Agent-v3 (2025): Foundamental Agents for GUI Automation
- PC-Agent (ICLR 2025 Workshop): A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
- Mobile-Agent-E (2025): Self-Evolving Mobile Assistant for Complex Tasks
- Mobile-Agent-v2 (NeurIPS 2024): Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
- Mobile-Agent (ICLR 2024 Workshop): Autonomous Multi-Modal Mobile Device Agent with Visual Perception
获奖情况
- 2025年第24届中国计算语言学大会(CCL 2025)最佳演示奖
- 2024年第23届中国计算语言学大会(CCL 2024)最佳演示奖
评估基准
Mobile-Eval基准
Mobile-Eval是为评估移动设备智能体性能而设计的基准,包括10个主流单应用场景和1个多应用场景。每个场景设计了三种指令类型。
测试场景示例
- 购物任务:在阿里巴巴网站上寻找帽子并加入购物车
- 音乐播放:在Amazon Music中搜索歌手周杰伦
- 信息查询:搜索今日湖人队比赛结果
- 邮件发送:发送空邮件到指定地址
技术栈
核心技术
- 多模态大语言模型:GPT-4V、Qwen-VL等
- 视觉感知:CLIP、GroundingDINO等
- 强化学习:Trajectory-aware Relative Policy Optimization (TRPO)
- 多智能体框架:分层协作架构
支持平台
- 移动平台:Android、HarmonyOS (≤ 4版本)
- 桌面平台:Windows、macOS、Ubuntu
- 浏览器:Chrome及其他主流浏览器
- 办公软件:Word、Excel、PowerPoint等
开源信息
仓库结构
MobileAgent/
├── Mobile-Agent/ # 原始版本
├── Mobile-Agent-v2/ # 多智能体协作版本
├── Mobile-Agent-v3/ # 基于GUI-Owl的最新版本
├── Mobile-Agent-E/ # 自进化版本
├── PC-Agent/ # PC平台版本
└── requirements.txt # 依赖包
模型发布
- GUI-Owl-7B和GUI-Owl-32B模型检查点已发布
- 支持HuggingFace和ModelScope平台部署
- 提供在线演示体验
社区与生态
在线体验
相关项目
- AppAgent:多模态智能体作为智能手机用户
- mPLUG-Owl:模块化多模态大语言模型
- Qwen-VL:通用视觉语言模型
- GroundingDINO:开放集物体检测
未来发展
该项目代表了GUI自动化智能体的前沿发展方向,通过不断的技术创新和性能优化,为实现真正的通用人工智能助手铺平了道路。随着模型能力的提升和应用场景的扩展,Mobile-Agent有望在更多实际场景中发挥重要作用。