Uma poderosa família de agentes inteligentes de automação de GUI multimodal, suportando operações ponta a ponta em dispositivos móveis e plataformas de PC.

MITPythonMobileAgentX-PLUG 5.6k Last Updated: September 11, 2025

Descrição Detalhada do Projeto Mobile-Agent

Visão Geral do Projeto

Mobile-Agent é uma poderosa família de agentes GUI desenvolvida pela equipe Alibaba X-PLUG, um sistema de agente multimodal ponta a ponta projetado especificamente para dispositivos móveis e plataformas PC. O projeto visa alcançar a automação da GUI, operando autonomamente várias aplicações através de percepção visual, planejamento de raciocínio e execução de ações.

Arquitetura e Componentes do Projeto

Série de Componentes Principais

1. Modelo Base GUI-Owl

GUI-Owl é um modelo de agente GUI fundamental que alcançou o desempenho de ponta para modelos de código aberto ponta a ponta em dez benchmarks de GUI, cobrindo localização, Q&A, planejamento, tomada de decisão e conhecimento processual em ambientes de desktop e móveis. GUI-Owl-7B atingiu 66,4 pontos no AndroidWorld e 29,4 pontos no OSWorld.

2. Mobile-Agent-v3

Mobile-Agent-v3 é uma estrutura multiagente multiplataforma baseada em GUI-Owl, oferecendo recursos como planejamento, gerenciamento de progresso, reflexão e memória. É um agente multimodal nativo ponta a ponta, projetado como um modelo fundamental para automação de GUI, unificando percepção, localização, raciocínio, planejamento e execução de ações em uma única rede de políticas.

3. Mobile-Agent-E

Mobile-Agent-E é uma estrutura multiagente hierárquica com capacidade de autoevolução, capaz de evoluir através de experiências passadas e demonstrar maior desempenho em tarefas complexas multiaplicativos.

4. PC-Agent

PC-Agent é um sistema de colaboração multiagente que pode automatizar o controle de cenários de produtividade (como Chrome, Word e WeChat) com base nas instruções do usuário. Seu módulo de percepção ativa, projetado para elementos de interação densos e diversos, adapta-se melhor à plataforma PC. A estrutura de colaboração multiagente hierárquica melhora a taxa de sucesso para sequências de tarefas mais complexas. Atualmente, suporta Windows e Mac.

5. Mobile-Agent-v2

Mobile-Agent-v2 é um assistente de operação de dispositivo móvel que alcança navegação eficaz através da colaboração multiagente. A arquitetura multiagente aborda os desafios de navegação em cenários de entrada de contexto longo. O módulo de percepção visual aprimorado melhora significativamente a precisão da operação.

Características Técnicas

Vantagens Tecnológicas Principais

  1. Compatibilidade Multiplataforma: Suporta múltiplas plataformas como Android, iOS, Windows, Mac.
  2. Capacidade de Percepção Visual: Utiliza ferramentas de percepção visual para identificar e localizar com precisão elementos visuais e textuais na interface de front-end do aplicativo.
  3. Compreensão Multimodal: Combina compreensão visual e de linguagem para raciocínio em tarefas complexas.
  4. Operação Ponta a Ponta: Fluxo de automação completo, desde a compreensão da tarefa até a execução.
  5. Autoevolução: Melhora continuamente o desempenho através da aprendizagem por experiência.

Pontos de Inovação Tecnológica

Três Principais Inovações do GUI-Owl

  1. Infraestrutura de Ambiente em Larga Escala: Ambientes virtuais baseados em nuvem, cobrindo Android, Ubuntu, macOS e Windows, suportando uma estrutura de produção de trajetória GUI autoevolutiva.
  2. Capacidades Diversificadas de Agente Base: Integra localização de UI, planejamento, semântica de ação e modos de raciocínio, suportando a tomada de decisões ponta a ponta.
  3. Aprendizagem por Reforço de Ambiente Escalável: Desenvolveu uma estrutura de aprendizagem por reforço escalável com treinamento totalmente assíncrono para alinhamento com o mundo real.

Desempenho

Resultados de Benchmarking

  • Mobile-Agent-v3 atingiu 73,3 pontos no AndroidWorld e 37,7 pontos no OSWorld, estabelecendo um novo padrão de ponta para estruturas de agentes GUI de código aberto.
  • Alcançou desempenho SOTA em várias listas de avaliação de automação de GUI, incluindo ScreenSpot-V2, ScreenSpot-Pro, OSWorld-G, MMBench-GUI, Android Control, Android World e OSWorld.

Otimização do Desempenho do Sistema

  • Baixo consumo de memória (8GB)
  • Velocidade de inferência rápida (10-15 segundos por operação)
  • Uso exclusivo de modelos de código aberto

Implementação Técnica

Requisitos de Ambiente

# Configuração do ambiente base
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt

Configuração da Plataforma Android

  1. Baixe o Android Debug Bridge (ADB).
  2. Ative a depuração ADB no seu telefone Android.
  3. Conecte o telefone ao computador com um cabo de dados e selecione "Transferir arquivos".
  4. Teste o ambiente ADB: /path/to/adb devices

Configuração da Plataforma PC

# Ambiente Windows
pip install -r requirements.txt

# Ambiente Mac  
pip install -r requirements_mac.txt

Configuração da API

{
  "vl_model_name": "gpt-4o",
  "llm_model_name": "gpt-4o", 
  "token": "sk-...",
  "url": "https://api.openai.com/v1"
}

Cenários de Aplicação

Tipos de Operação Suportados

  1. Operações de Aplicativos Móveis: Clicar, deslizar, inserir texto, alternar aplicativos.
  2. Operações de Aplicativos de PC: Controle de navegador, operação de software de escritório, uso de software de comunicação.
  3. Tarefas Multiaplicativos: Fluxos de trabalho complexos entre vários aplicativos.
  4. Tarefas de Raciocínio Complexo: Tarefas de longo prazo que exigem raciocínio em várias etapas.

Exemplos de Aplicação Prática

  • Compras online: Pesquisar produtos, comparar preços, adicionar ao carrinho.
  • Consulta de informações: Pesquisar notícias, obter resultados de jogos esportivos.
  • Automação de escritório: Escrever documentos, enviar e-mails, processamento de dados.
  • Mídias sociais: Publicar conteúdo, responder a mensagens, compartilhar informações.

Resultados Acadêmicos

Artigos Publicados

  • Mobile-Agent-v3 (2025): Foundamental Agents for GUI Automation
  • PC-Agent (ICLR 2025 Workshop): A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
  • Mobile-Agent-E (2025): Self-Evolving Mobile Assistant for Complex Tasks
  • Mobile-Agent-v2 (NeurIPS 2024): Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
  • Mobile-Agent (ICLR 2024 Workshop): Autonomous Multi-Modal Mobile Device Agent with Visual Perception

Prêmios Recebidos

  • Prêmio de Melhor Demonstração na 24ª Conferência Chinesa de Linguística Computacional (CCL 2025).
  • Prêmio de Melhor Demonstração na 23ª Conferência Chinesa de Linguística Computacional (CCL 2024).

Benchmarks de Avaliação

Benchmark Mobile-Eval

Mobile-Eval é um benchmark projetado para avaliar o desempenho de agentes de dispositivos móveis, incluindo 10 cenários de aplicativos únicos mainstream e 1 cenário multiaplicativo. Cada cenário é projetado com três tipos de instruções.

Exemplos de Cenários de Teste

  • Tarefa de compras: Encontrar um chapéu no site da Alibaba e adicioná-lo ao carrinho.
  • Reprodução de música: Pesquisar o cantor Jay Chou no Amazon Music.
  • Consulta de informações: Pesquisar os resultados do jogo dos Lakers de hoje.
  • Envio de e-mail: Enviar um e-mail vazio para um endereço especificado.

Pilha Tecnológica

Tecnologias Principais

  • Modelos de Linguagem Grandes Multimodais: GPT-4V, Qwen-VL, etc.
  • Percepção Visual: CLIP, GroundingDINO, etc.
  • Aprendizagem por Reforço: Trajectory-aware Relative Policy Optimization (TRPO).
  • Estrutura Multiagente: Arquitetura de colaboração hierárquica.

Plataformas Suportadas

  • Plataformas Móveis: Android, HarmonyOS (versão ≤ 4).
  • Plataformas Desktop: Windows, macOS, Ubuntu.
  • Navegadores: Chrome e outros navegadores mainstream.
  • Software de Escritório: Word, Excel, PowerPoint, etc.

Informações de Código Aberto

Estrutura do Repositório

MobileAgent/
├── Mobile-Agent/          # Versão original
├── Mobile-Agent-v2/       # Versão de colaboração multiagente
├── Mobile-Agent-v3/       # Versão mais recente baseada em GUI-Owl
├── Mobile-Agent-E/        # Versão autoevolutiva
├── PC-Agent/             # Versão para plataforma PC
└── requirements.txt      # Pacotes de dependência

Lançamento de Modelos

  • Os checkpoints dos modelos GUI-Owl-7B e GUI-Owl-32B foram lançados.
  • Suporta implantação nas plataformas HuggingFace e ModelScope.
  • Oferece experiência de demonstração online.

Comunidade e Ecossistema

Experiência Online

Projetos Relacionados

  • AppAgent: Agente multimodal como usuário de smartphone.
  • mPLUG-Owl: Modelo de linguagem grande multimodal modular.
  • Qwen-VL: Modelo de linguagem visual geral.
  • GroundingDINO: Detecção de objetos de conjunto aberto.

Desenvolvimento Futuro

Este projeto representa a vanguarda no desenvolvimento de agentes de automação de GUI, pavimentando o caminho para a realização de assistentes de IA verdadeiramente gerais através de inovação tecnológica contínua e otimização de desempenho. Com o aprimoramento das capacidades do modelo e a expansão dos cenários de aplicação, o Mobile-Agent deverá desempenhar um papel importante em mais cenários práticos.

Star History Chart