Tongyi-MAI/MAI-UI View GitHub Homepage for Latest Official Releases

面向真實世界的基礎 GUI 代理，具備原生使用者互動、MCP 工具整合和裝置-雲端協作能力

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI：以真實世界為中心的基礎 GUI 代理

總覽

MAI-UI 是阿里巴巴通義實驗室開發的全面基礎 GUI 代理系列，涵蓋從 2B 到 235B-A22B 參數的模型規模。該專案透過創新的使用者互動、工具整合和部署架構方法，在使 GUI 代理能夠實際部署於真實世界方面取得了重大進展。

主要特點與創新

1. 多尺度基礎模型

模型變體: 2B、8B、32B 和 235B-A22B 參數
基礎架構: 基於 Qwen3-VL 多模態大型語言模型
訓練方法: 聯合監督微調和強化學習
部署靈活性: 適用於各種硬體限制和效能要求

2. 擴展動作空間

MAI-UI 在傳統 GUI 操作之外引入了三項關鍵能力：

代理-使用者互動

ask_user 動作: 主動請求對模糊指令進行澄清
動態對話: 處理不完整或不明確的使用者需求
真實世界適用性: 解決使用者指令缺乏特異性的常見場景

MCP 工具整合

mcp_call 動作: 透過模型上下文協議 (Model Context Protocol) 直接調用外部工具
API 層級操作: 相較於複雜的 UI 操作，更有效率的替代方案
增強功能: 存取地圖、檔案管理和資料檢索等服務

裝置-雲端協同

智慧路由: 在裝置端和雲端執行之間動態選擇
隱私保護: 將敏感操作保留在本地，同時利用雲端處理複雜任務
成本優化: 將雲端 API 調用減少 40% 以上

3. 自我演進資料管道

自主資料生成: 持續改進訓練語料庫
多代理協同: 人工註釋和模型生成軌跡的結合
品質篩選: 評估模型評估並保留高品質執行路徑
動態適應: 訓練資料隨模型能力演進

4. 大規模線上強化學習

大規模並行處理: 高達 512 個並行 Android 環境
擴展上下文: 支援最多 50 個環境步驟
顯著改進: 環境擴展帶來 +5.2 分，步驟預算增加帶來 +4.3 分
真實世界穩健性: 在具有彈出視窗、廣告和 UI 變更的動態環境中進行訓練

效能成就

GUI 基礎基準測試

ScreenSpot-Pro: 73.5% 的準確度 (超越 Gemini-3-Pro 和 Seed1.8)
MMBench GUI L2: 91.3% 的準確度
OSWorld-G: 70.9% 的準確度
UI-Vision: 49.2% 的準確度

行動裝置導航基準測試

AndroidWorld: 76.7% 的成功率 (新的 SOTA，超越 UI-Tars-2、Gemini-2.5-Pro 和 Seed1.8)
MobileWorld: 41.7% 的成功率 (比最強的基準線提高了 20.8 分)

裝置-雲端協同結果

效能提升: 裝置端效能提升 33%
成本降低: 雲端模型調用減少超過 40%
隱私保護: 40.5% 的任務完全在裝置端完成

技術架構

模型基礎

骨幹: Qwen3-VL 多模態架構
輸入模態: 自然語言指令和渲染的 UI 螢幕截圖
輸出: 適用於即時 Android 裝置的結構化動作
動作空間: 點擊、滑動、文字輸入、系統按鈕，以及增強的互動能力

訓練方法

監督微調: 在精選的 GUI 基礎和導航資料上進行初始訓練
線上強化學習: 透過與即時環境互動進行持續改進
自我演進管道: 自主資料生成和品質改進
多維度整合: 使用者互動、MCP 工具調用和傳統 GUI 操作

部署系統

混合架構: 裝置端和雲端模型的無縫整合
任務感知路由: 根據任務複雜度和隱私需求進行智慧決策
隱私優先設計: 敏感操作保留在本地，同時複雜任務利用雲端能力
成本優化: 透過智慧工作負載分配實現高效資源利用

真實世界應用

家庭與個人用途

智慧購物: 基於日曆整合的主動建議
任務自動化: 日常活動的複雜多應用程式工作流程
情境輔助: 透過自然對話理解使用者意圖

專業與辦公用途

文件管理: 智慧檔案處理和共用
溝通輔助: 具備情境感知能力的電子郵件撰寫
跨應用程式整合: 跨多個應用程式的無縫工作流程

導航與位置服務

路線規劃: 透過 MCP 工具與地圖服務整合
基於位置的建議: 情境敏感的推薦
多模態交通: 支援各種交通方式

技術規格

要求

vLLM: 版本 ≥0.11.0
Transformers: 版本 ≥4.57.0
Python: 與標準 ML 生態系統相容
硬體: 可從行動裝置擴展到雲端基礎設施

可用模型

MAI-UI-2B: 適用於資源受限環境的輕量級模型
MAI-UI-8B: 效能與效率平衡
較大變體: 32B 和 235B-A22B，以實現最大能力

整合選項

API 服務: 透過 vLLM 提供與 OpenAI 相容的介面
直接整合: 用於自訂應用程式的 Python SDK
容器部署: 用於可擴展部署的 Docker 支援

研究影響

基準領導地位

MAI-UI 在多個權威基準測試中確立了新的最先進效能，展示了理論進步和實際適用性。

方法論貢獻

裝置-雲端協同: GUI 代理的新穎部署架構
自我演進資料: 訓練資料集的自主改進
擴展互動模型: 對使用者對話和工具整合的原生支援

行業應用

該專案解決了歷史上限制 GUI 代理採用的真實世界部署挑戰，使其適用於生產環境。

開源承諾

授權

Apache 授權 2.0: 允許商業和研究用途的寬鬆授權
第三方元件: 清楚記錄並附有適當的歸屬
社群貢獻: 開放的開發模式鼓勵協作

可用資源

模型: Hugging Face 上的 MAI-UI-2B 和 MAI-UI-8B
程式碼: GitHub 上的完整實施
文件: 全面的技術報告和使用指南
基準測試: 用於評估的 MobileWorld 基準測試

未來方向

研究擴展

更大模型變體: 持續開發 32B 和 235B 模型
跨平台支援: 從 Android 擴展到 iOS 和桌面平台
增強工具整合: 更廣泛的 MCP 工具生態系統

商業應用

企業部署: 與業務工作流程整合
無障礙解決方案: 為殘障人士提供協助
生產力增強: 為知識工作者提供進階自動化

引用資訊

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

聯絡資訊

專案負責人: Hanzhang Zhou (hanzhang.zhou@alibaba-inc.com)
技術負責人: Xu Zhang (hanguang.zx@alibaba-inc.com)
研究總監: Yue Wang (yue.w@alibaba-inc.com)
機構: 阿里巴巴集團通義實驗室

其他資源

專案網站: https://tongyi-mai.github.io/MAI-UI/
GitHub 儲存庫: https://github.com/Tongyi-MAI/MAI-UI
Hugging Face 模型: https://huggingface.co/Tongyi-MAI
技術論文: https://arxiv.org/abs/2512.22047
MobileWorld 基準測試: https://github.com/Tongyi-MAI/MobileWorld