Tongyi-MAI/MAI-UI View GitHub Homepage for Latest Official Releases

面向真实世界的基础GUI智能体，具备原生用户交互、MCP工具集成和设备-云协作能力

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI：以真实世界为中心的基础 GUI 代理

概述

MAI-UI 是阿里巴巴通义实验室开发的一套全面的基础 GUI 代理系列，涵盖了从 2B 到 235B-A22B 参数的全部模型尺寸。该项目通过创新的用户交互、工具集成和部署架构方法，在使 GUI 代理在现实世界中实用化部署方面取得了重大进展。

主要特性与创新

1. 多尺度基础模型

模型变体: 2B、8B、32B 和 235B-A22B 参数
基础架构: 基于 Qwen3-VL 多模态大语言模型构建
训练方法: 联合监督微调和强化学习
部署灵活性: 适用于各种硬件限制和性能要求

2. 扩展动作空间

MAI-UI 在传统 GUI 操作之外引入了三项关键能力：

代理-用户交互

ask_user 动作: 主动请求对模糊指令进行澄清
动态对话: 处理不完整或不明确的用户需求
现实世界适用性: 解决用户指令缺乏特异性的常见场景

MCP 工具集成

mcp_call 动作: 通过模型上下文协议直接调用外部工具
API 级操作: 复杂 UI 操作的有效替代方案
增强功能: 访问地图、文件管理和数据检索等服务

设备-云协作

智能路由: 在设备端和云端执行之间动态选择
隐私保护: 将敏感操作保留在本地，同时利用云处理复杂任务
成本优化: 将云 API 调用减少 40% 以上

3. 自我演进数据管道

自主数据生成: 持续改进训练语料库
多代理协作: 人工标注和模型生成轨迹的结合
质量过滤: 评估模型评估并保留高质量的执行路径
动态适应: 训练数据随模型能力而演进

4. 大规模在线强化学习

大规模并行: 多达 512 个并行 Android 环境
扩展上下文: 支持多达 50 个环境步长
显著改进: 环境扩展增加 5.2 分，步长预算增加增加 4.3 分
现实世界鲁棒性: 在具有弹出窗口、广告和 UI 更改的动态环境中进行训练

性能成就

GUI 基础性基准测试

ScreenSpot-Pro: 准确率 73.5%（超越 Gemini-3-Pro 和 Seed1.8）
MMBench GUI L2: 准确率 91.3%
OSWorld-G: 准确率 70.9%
UI-Vision: 准确率 49.2%

移动导航基准测试

AndroidWorld: 成功率 76.7%（新的 SOTA，超越 UI-Tars-2、Gemini-2.5-Pro 和 Seed1.8）
MobileWorld: 成功率 41.7%（比最强的基线提高了 20.8 个百分点）

设备-云协作结果

性能提升: 设备端性能提升 33%
成本降低: 云模型调用减少 40% 以上
隐私保护: 40.5% 的任务完全在设备端完成

技术架构

模型基础

骨干: Qwen3-VL 多模态架构
输入模态: 自然语言指令和渲染的 UI 屏幕截图
输出: 针对实时 Android 设备的结构化操作
动作空间: 点击、滑动、文本输入、系统按钮，以及增强的交互能力

训练方法

监督微调: 在精选的 GUI 基础性和导航数据上进行初始训练
在线强化学习: 通过与实时环境的交互进行持续改进
自演进管道: 自主数据生成和质量改进
多维度集成: 用户交互、MCP 工具调用和传统 GUI 操作

部署系统

混合架构: 设备端和云端模型的无缝集成
任务感知路由: 基于任务复杂性和隐私要求的智能决策
隐私优先设计: 敏感操作保留在本地，而复杂任务则利用云能力
成本优化: 通过智能工作负载分配实现高效资源利用

实际应用

家庭与个人使用

智能购物: 基于日历集成的积极建议
任务自动化: 日常活动的复杂多应用工作流
情境辅助: 通过自然对话理解用户意图

专业与办公使用

文档管理: 智能文件处理和共享
沟通辅助: 具有情境感知能力的电子邮件撰写
跨应用集成: 跨多个应用程序的无缝工作流

导航与位置服务

路线规划: 通过 MCP 工具与地图服务集成
基于位置的建议: 情境敏感的推荐
多模态交通: 支持各种交通方式

技术规格

要求

vLLM: 版本 ≥0.11.0
Transformers: 版本 ≥4.57.0
Python: 与标准 ML 生态系统兼容
硬件: 可从移动设备扩展到云基础设施

可用模型

MAI-UI-2B: 适用于资源受限环境的轻量级模型
MAI-UI-8B: 性能和效率均衡
更大变体: 32B 和 235B-A22B，以获得最大能力

集成选项

API 服务: 通过 vLLM 提供兼容 OpenAI 的接口
直接集成: 用于自定义应用程序的 Python SDK
容器部署: 支持 Docker 进行可扩展部署

研究影响

基准领先

MAI-UI 在多个权威基准测试中确立了新的最先进性能，展示了理论进步和实际适用性。

方法论贡献

设备-云协作: GUI 代理的新型部署架构
自演进数据: 训练数据集的自主改进
扩展交互模型: 对用户对话和工具集成的原生支持

行业应用

该项目解决了历史上限制 GUI 代理采用的实际部署挑战，使其适用于生产环境。

开源承诺

许可

Apache License 2.0: 允许商业和研究使用的宽松许可
第三方组件: 清晰记录并附有适当的署名
社区贡献: 鼓励协作的开放开发模式

可用资源

模型: Hugging Face 上的 MAI-UI-2B 和 MAI-UI-8B
代码: GitHub 上的完整实现
文档: 全面的技术报告和使用指南
基准测试: 用于评估的 MobileWorld 基准测试

未来方向

研究扩展

更大模型变体: 继续开发 32B 和 235B 模型
跨平台支持: 从 Android 扩展到 iOS 和桌面平台
增强工具集成: 更广泛的 MCP 工具生态系统

商业应用

企业部署: 与业务工作流集成
可访问性解决方案: 为残障人士提供帮助
生产力增强: 为知识工作者提供高级自动化

引用信息

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

联系信息

项目负责人: Hanzhang Zhou (hanzhang.zhou@alibaba-inc.com)
技术负责人: Xu Zhang (hanguang.zx@alibaba-inc.com)
研究总监: Yue Wang (yue.w@alibaba-inc.com)
机构: 阿里巴巴集团，通义实验室

其他资源

项目网站: https://tongyi-mai.github.io/MAI-UI/
GitHub 仓库: https://github.com/Tongyi-MAI/MAI-UI
Hugging Face 模型: https://huggingface.co/Tongyi-MAI
技术论文: https://arxiv.org/abs/2512.22047
MobileWorld 基准测试: https://github.com/Tongyi-MAI/MobileWorld