ネイティブなユーザーインタラクション、MCPツール統合、デバイス・クラウド連携機能を備えた、実世界中心の基盤GUIエージェント

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI: リアルワールド中心の基盤GUIエージェント

概要

MAI-UIは、AlibabaのTongyi Labが開発した包括的な基盤GUIエージェントファミリーであり、2Bから235B-A22Bパラメータまでの全モデルサイズを網羅しています。このプロジェクトは、ユーザーインタラクション、ツール統合、デプロイメントアーキテクチャに対する革新的なアプローチを通じて、GUIエージェントを実世界での展開に実用的なものにする上で重要な進歩を表しています。

主な特徴とイノベーション

1. マルチスケール基盤モデル

  • モデルバリアント: 2B、8B、32B、235B-A22Bパラメータ
  • ベースアーキテクチャ: Qwen3-VLマルチモーダル大規模言語モデルを基盤
  • トレーニングアプローチ: 共同教師ありファインチューニングと強化学習
  • デプロイメントの柔軟性: 様々なハードウェア制約とパフォーマンス要件に適応可能

2. 拡張アクション空間

MAI-UIは、従来のGUI操作を超えた3つの重要な機能を提供します。

エージェントとユーザーのインタラクション

  • ask_userアクション: 不明確な指示に対して積極的に明確化を要求
  • 動的な会話: 不完全または不明確なユーザー要件に対応
  • 実世界での適用性: ユーザー指示の具体性が欠如する一般的なシナリオに対応

MCPツール統合

  • mcp_callアクション: Model Context Protocolを介した外部ツールの直接呼び出し
  • APIレベルの操作: 複雑なUI操作に対する効率的な代替手段
  • 強化された機能: マッピング、ファイル管理、データ取得などのサービスへのアクセス

デバイスとクラウドの連携

  • インテリジェントルーティング: オンデバイス実行とクラウド実行の動的な選択
  • プライバシー保護: 機密性の高い操作はローカルに保ちつつ、複雑なタスクにはクラウドを活用
  • コスト最適化: クラウドAPI呼び出しを40%以上削減

3. 自己進化型データパイプライン

  • 自律的なデータ生成: トレーニングコーパスの継続的な改善
  • マルチエージェント連携: 人間のアノテーションとモデル生成された軌跡の組み合わせ
  • 品質フィルタリング: 評価モデルが質の高い実行パスを評価・保持
  • 動的な適応: モデルの能力に合わせてトレーニングデータが進化

4. 大規模オンライン強化学習

  • 大規模並列処理: 最大512の並列Android環境
  • 拡張コンテキスト: 最大50環境ステップをサポート
  • 大幅な改善: 環境スケーリングによる+5.2ポイント、ステップ予算増加による+4.3ポイント
  • 実世界での堅牢性: ポップアップ、広告、UI変更を含む動的な環境でのトレーニング

パフォーマンス実績

GUIグラウンディングベンチマーク

  • ScreenSpot-Pro: 73.5%の精度 (Gemini-3-ProおよびSeed1.8を上回る)
  • MMBench GUI L2: 91.3%の精度
  • OSWorld-G: 70.9%の精度
  • UI-Vision: 49.2%の精度

モバイルナビゲーションベンチマーク

  • AndroidWorld: 76.7%の成功率 (UI-Tars-2、Gemini-2.5-Pro、Seed1.8を上回る新しいSOTA)
  • MobileWorld: 41.7%の成功率 (最上位ベースラインから20.8ポイント改善)

デバイスとクラウド連携の結果

  • パフォーマンス向上: オンデバイスパフォーマンスが33%向上
  • コスト削減: クラウドモデル呼び出しが40%以上削減
  • プライバシー保護: タスクの40.5%が完全にオンデバイスで完了

技術アーキテクチャ

モデル基盤

  • バックボーン: Qwen3-VLマルチモーダルアーキテクチャ
  • 入力モダリティ: 自然言語指示とレンダリングされたUIスクリーンショット
  • 出力: ライブAndroidデバイス向けの構造化アクション
  • アクション空間: クリック、スワイプ、テキスト入力、システムボタン、および強化されたインタラクション機能

トレーニング方法論

  1. 教師ありファインチューニング: 厳選されたGUIグラウンディングおよびナビゲーションデータでの初期トレーニング
  2. オンライン強化学習: ライブ環境とのインタラクションによる継続的な改善
  3. 自己進化型パイプライン: 自律的なデータ生成と品質向上
  4. 多次元統合: ユーザーインタラクション、MCPツール呼び出し、および従来のGUI操作

デプロイメントシステム

  • ハイブリッドアーキテクチャ: オンデバイスモデルとクラウドモデルのシームレスな統合
  • タスク認識ルーティング: タスクの複雑さとプライバシー要件に基づいたインテリジェントな意思決定
  • プライバシーファースト設計: 機密性の高い操作はローカルに保ちつつ、複雑なタスクにはクラウドを活用
  • コスト最適化: インテリジェントなワークロード分散による効率的なリソース利用

実世界での応用

家庭および個人利用

  • スマートショッピング: カレンダー統合に基づいたプロアクティブな提案
  • タスク自動化: 日常活動のための複雑なマルチアプリワークフロー
  • コンテキストアシスタンス: 自然な会話を通じたユーザー意図の理解

プロフェッショナルおよびオフィス利用

  • ドキュメント管理: インテリジェントなファイル処理と共有
  • コミュニケーションアシスタンス: コンテキスト認識を備えたメール作成
  • クロスアプリ統合: 複数のアプリケーションにわたるシームレスなワークフロー

ナビゲーションおよび位置情報サービス

  • ルートプランニング: MCPツールを介したマッピングサービスとの統合
  • 位置情報に基づいた提案: コンテキストに応じた推奨事項
  • マルチモーダル交通: 様々な交通手段のサポート

技術仕様

要件

  • vLLM: バージョン≥0.11.0
  • Transformers: バージョン≥4.57.0
  • Python: 標準的なMLエコシステムと互換性あり
  • ハードウェア: モバイルデバイスからクラウドインフラストラクチャまでスケーラブル

利用可能なモデル

  • MAI-UI-2B: リソース制約のある環境向けの軽量モデル
  • MAI-UI-8B: パフォーマンスと効率のバランス
  • より大きなバリアント: 最大限の機能のための32Bおよび235B-A22B

統合オプション

  • APIサービス: vLLMを介したOpenAI互換インターフェース
  • 直接統合: カスタムアプリケーション向けのPython SDK
  • コンテナデプロイメント: スケーラブルなデプロイメントのためのDockerサポート

研究への影響

ベンチマークリーダーシップ

MAI-UIは、複数の権威あるベンチマークで新しい最先端のパフォーマンスを確立し、理論的な進歩と実用的な適用性の両方を示しています。

方法論的貢献

  • デバイスとクラウドの連携: GUIエージェントのための新しいデプロイメントアーキテクチャ
  • 自己進化型データ: トレーニングデータセットの自律的な改善
  • 拡張インタラクションモデル: ユーザー対話とツール統合のネイティブサポート

産業応用

このプロジェクトは、GUIエージェントの採用を歴史的に制限してきた実世界でのデプロイメントの課題に対処しており、本番環境に適しています。

オープンソースへのコミットメント

ライセンス

  • Apache License 2.0: 商用および研究用途向けの寛容なライセンス
  • サードパーティコンポーネント: 適切な帰属表示とともに明確に文書化
  • コミュニティ貢献: 協力関係を促進するオープン開発モデル

利用可能なリソース

  • モデル: Hugging Face上のMAI-UI-2BおよびMAI-UI-8B
  • コード: GitHub上の完全な実装
  • ドキュメント: 包括的な技術レポートと使用ガイド
  • ベンチマーク: 評価のためのMobileWorldベンチマーク

将来の方向性

研究拡張

  • より大きなモデルバリアント: 32Bおよび235Bモデルの開発継続
  • クロスプラットフォームサポート: AndroidからiOSおよびデスクトッププラットフォームへの拡張
  • 強化されたツール統合: より広範なMCPツールエコシステム

商用アプリケーション

  • エンタープライズデプロイメント: ビジネスワークフローとの統合
  • アクセシビリティソリューション: 障害を持つユーザーへの支援
  • 生産性向上: ナレッジワーカー向けの高度な自動化

引用情報

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

連絡先情報

追加リソース

Star History Chart