モバイルデバイスとPCプラットフォームのエンドツーエンド操作をサポートする、強力なマルチモーダルGUI自動化エージェントファミリー
Mobile-Agent プロジェクト詳細
プロジェクト概要
Mobile-Agentは、アリババX-PLUGチームによって開発された強力なGUIエージェントファミリーであり、モバイルデバイスおよびPCプラットフォーム向けに設計されたエンドツーエンドのマルチモーダルエージェントシステムです。本プロジェクトは、視覚認識、推論計画、およびアクション実行を通じて、様々なアプリケーションを自律的に操作することで、GUI自動化を実現することを目指しています。
プロジェクトアーキテクチャとコンポーネント
コアコンポーネントシリーズ
1. GUI-Owl 基盤モデル
GUI-Owlは、GUIエージェントの基盤モデルであり、デスクトップおよびモバイル環境における位置特定、質問応答、計画、意思決定、およびプログラム知識をカバーする10のGUIベンチマークにおいて、オープンソースのエンドツーエンドモデルとして最先端の性能を達成しました。GUI-Owl-7BはAndroidWorldで66.4点、OSWorldで29.4点を記録しています。
2. Mobile-Agent-v3
Mobile-Agent-v3は、GUI-Owlをベースとしたクロスプラットフォームのマルチエージェントフレームワークであり、計画、進捗管理、反省、記憶などの機能を提供します。これは、GUI自動化の基盤モデルとして設計されたネイティブなエンドツーエンドのマルチモーダルエージェントであり、認識、位置特定、推論、計画、およびアクション実行を単一のポリシーネットワークに統合しています。
3. Mobile-Agent-E
Mobile-Agent-Eは、自己進化能力を持つ階層型マルチエージェントフレームワークであり、過去の経験を通じて自己進化し、複雑なマルチアプリケーションタスクにおいてより強力な性能を発揮します。
4. PC-Agent
PC-Agentは、ユーザーの指示に基づいて生産性向上シナリオ(Chrome、Word、WeChatなど)の自動制御を実現できるマルチエージェント協調システムです。密集した多様なインタラクション要素向けに設計された能動的認識モジュールは、PCプラットフォームにより適応します。階層型マルチエージェント協調構造は、より複雑なタスクシーケンスの成功率を向上させます。現在、WindowsとMacの両方をサポートしています。
5. Mobile-Agent-v2
Mobile-Agent-v2は、マルチエージェント協調を通じて効果的なナビゲーションを実現するモバイルデバイス操作アシスタントです。マルチエージェントアーキテクチャは、長文コンテキスト入力シナリオにおけるナビゲーションの課題を解決します。強化された視覚認識モジュールは、操作の精度を大幅に向上させます。
技術的特徴
コア技術的優位性
- クロスプラットフォーム互換性:Android、iOS、Windows、Macなど複数のプラットフォームをサポートします。
- 視覚認識能力:視覚認識ツールを利用して、アプリケーションのフロントエンドインターフェース内の視覚要素とテキスト要素を正確に識別し、位置を特定します。
- マルチモーダル理解:視覚と言語の理解を組み合わせて複雑なタスクを推論します。
- エンドツーエンド操作:タスク理解から実行までの完全な自動化プロセスを提供します。
- 自己進化:経験学習を通じて性能を継続的に改善します。
技術革新点
GUI-Owlの3つの主要な革新点
- 大規模環境インフラストラクチャ:Android、Ubuntu、macOS、Windowsをカバーするクラウドベースの仮想環境で、自己進化型GUI軌跡生成フレームワークをサポートします。
- 多様な基盤エージェント能力:UI位置特定、計画、アクションセマンティクス、推論パターンを統合し、エンドツーエンドの意思決定をサポートします。
- スケーラブルな環境強化学習:現実世界との整合性のための完全非同期トレーニングを備えたスケーラブルな強化学習フレームワークを開発しました。
性能
ベンチマーク結果
- Mobile-Agent-v3はAndroidWorldで73.3点、OSWorldで37.7点を記録し、オープンソースGUIエージェントフレームワークの新たな最先端標準を確立しました。
- ScreenSpot-V2、ScreenSpot-Pro、OSWorld-G、MMBench-GUI、Android Control、Android World、OSWorldを含む複数のGUI自動化評価ランキングでSOTA性能を達成しています。
システム性能最適化
- メモリ消費が少ない(8GB)
- 推論速度が速い(各操作10-15秒)
- すべてオープンソースモデルを使用しています。
技術実装
環境要件
# 基本環境設定
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt
Androidプラットフォーム設定
- Android Debug Bridge(ADB)をダウンロードします。
- Android携帯電話でADBデバッグスイッチをオンにします。
- データケーブルで携帯電話をコンピュータに接続し、「ファイルを転送」を選択します。
- ADB環境をテストします:
/path/to/adb devices
PCプラットフォーム設定
# Windows環境
pip install -r requirements.txt
# Mac環境
pip install -r requirements_mac.txt
API設定
{
"vl_model_name": "gpt-4o",
"llm_model_name": "gpt-4o",
"token": "sk-...",
"url": "https://api.openai.com/v1"
}
アプリケーションシナリオ
サポートされる操作タイプ
- モバイルアプリケーション操作:クリック、スワイプ、テキスト入力、アプリケーション切り替え
- PCアプリケーション操作:ブラウザ制御、オフィスソフトウェア操作、通信ソフトウェア使用
- クロスアプリケーションタスク:複数のアプリケーション間の複雑なワークフロー
- 複雑な推論タスク:多段階の推論が必要な長期タスク
実際の応用例
- オンラインショッピング:商品を検索、価格比較、カートに追加
- 情報検索:ニュース検索、スポーツ試合結果の取得
- オフィス自動化:ドキュメント作成、メール送信、データ処理
- ソーシャルメディア:コンテンツ投稿、メッセージ返信、情報共有
学術的成果
発表論文
- Mobile-Agent-v3 (2025): Foundamental Agents for GUI Automation
- PC-Agent (ICLR 2025 Workshop): A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
- Mobile-Agent-E (2025): Self-Evolving Mobile Assistant for Complex Tasks
- Mobile-Agent-v2 (NeurIPS 2024): Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
- Mobile-Agent (ICLR 2024 Workshop): Autonomous Multi-Modal Mobile Device Agent with Visual Perception
受賞歴
- 2025年第24回中国計算言語学大会(CCL 2025) ベストデモンストレーション賞
- 2024年第23回中国計算言語学大会(CCL 2024) ベストデモンストレーション賞
評価ベンチマーク
Mobile-Evalベンチマーク
Mobile-Evalは、モバイルデバイスエージェントの性能評価のために設計されたベンチマークであり、10の主要な単一アプリケーションシナリオと1つのマルチアプリケーションシナリオを含みます。各シナリオには3種類の指示タイプが設計されています。
テストシナリオ例
- ショッピングタスク:アリババのウェブサイトで帽子を探し、カートに追加します。
- 音楽再生:Amazon Musicで歌手周杰倫を検索します。
- 情報検索:今日のレイカーズの試合結果を検索します。
- メール送信:指定されたアドレスに空のメールを送信します。
技術スタック
コア技術
- マルチモーダル大規模言語モデル:GPT-4V、Qwen-VLなど
- 視覚認識:CLIP、GroundingDINOなど
- 強化学習:Trajectory-aware Relative Policy Optimization (TRPO)
- マルチエージェントフレームワーク:階層型協調アーキテクチャ
サポートプラットフォーム
- モバイルプラットフォーム:Android、HarmonyOS (≤ 4バージョン)
- デスクトッププラットフォーム:Windows、macOS、Ubuntu
- ブラウザ:Chromeおよびその他の主要ブラウザ
- オフィスソフトウェア:Word、Excel、PowerPointなど
オープンソース情報
リポジトリ構造
MobileAgent/
├── Mobile-Agent/ # オリジナルバージョン
├── Mobile-Agent-v2/ # マルチエージェント協調バージョン
├── Mobile-Agent-v3/ # GUI-Owlベースの最新バージョン
├── Mobile-Agent-E/ # 自己進化バージョン
├── PC-Agent/ # PCプラットフォームバージョン
└── requirements.txt # 依存パッケージ
モデル公開
- GUI-Owl-7BとGUI-Owl-32Bモデルチェックポイントが公開されました。
- HuggingFaceとModelScopeプラットフォームでのデプロイをサポートしています。
- オンラインデモ体験を提供しています。
コミュニティとエコシステム
オンラインデモ
関連プロジェクト
- AppAgent:スマートフォンユーザーとしてのマルチモーダルエージェント
- mPLUG-Owl:モジュール型マルチモーダル大規模言語モデル
- Qwen-VL:汎用視覚言語モデル
- GroundingDINO:オープンセット物体検出
将来の展望
本プロジェクトは、GUI自動化エージェントの最先端の発展方向を示しており、継続的な技術革新と性能最適化を通じて、真の汎用人工知能アシスタントの実現への道を切り開いています。モデル能力の向上と応用シナリオの拡大に伴い、Mobile-Agentはより多くの実際のシナリオで重要な役割を果たすことが期待されます。