X-PLUG/MobileAgentView GitHub Homepage for Latest Official Releases

Uma poderosa família de agentes inteligentes de automação de GUI multimodal, suportando operações ponta a ponta em dispositivos móveis e plataformas de PC.

MITPythonMobileAgentX-PLUG 5.6k Last Updated: September 11, 2025

Descrição Detalhada do Projeto Mobile-Agent

Visão Geral do Projeto

Mobile-Agent é uma poderosa família de agentes GUI desenvolvida pela equipe Alibaba X-PLUG, um sistema de agente multimodal ponta a ponta projetado especificamente para dispositivos móveis e plataformas PC. O projeto visa alcançar a automação da GUI, operando autonomamente várias aplicações através de percepção visual, planejamento de raciocínio e execução de ações.

Arquitetura e Componentes do Projeto

Série de Componentes Principais

1. Modelo Base GUI-Owl

GUI-Owl é um modelo de agente GUI fundamental que alcançou o desempenho de ponta para modelos de código aberto ponta a ponta em dez benchmarks de GUI, cobrindo localização, Q&A, planejamento, tomada de decisão e conhecimento processual em ambientes de desktop e móveis. GUI-Owl-7B atingiu 66,4 pontos no AndroidWorld e 29,4 pontos no OSWorld.

2. Mobile-Agent-v3

Mobile-Agent-v3 é uma estrutura multiagente multiplataforma baseada em GUI-Owl, oferecendo recursos como planejamento, gerenciamento de progresso, reflexão e memória. É um agente multimodal nativo ponta a ponta, projetado como um modelo fundamental para automação de GUI, unificando percepção, localização, raciocínio, planejamento e execução de ações em uma única rede de políticas.

3. Mobile-Agent-E

Mobile-Agent-E é uma estrutura multiagente hierárquica com capacidade de autoevolução, capaz de evoluir através de experiências passadas e demonstrar maior desempenho em tarefas complexas multiaplicativos.

4. PC-Agent

PC-Agent é um sistema de colaboração multiagente que pode automatizar o controle de cenários de produtividade (como Chrome, Word e WeChat) com base nas instruções do usuário. Seu módulo de percepção ativa, projetado para elementos de interação densos e diversos, adapta-se melhor à plataforma PC. A estrutura de colaboração multiagente hierárquica melhora a taxa de sucesso para sequências de tarefas mais complexas. Atualmente, suporta Windows e Mac.

5. Mobile-Agent-v2

Mobile-Agent-v2 é um assistente de operação de dispositivo móvel que alcança navegação eficaz através da colaboração multiagente. A arquitetura multiagente aborda os desafios de navegação em cenários de entrada de contexto longo. O módulo de percepção visual aprimorado melhora significativamente a precisão da operação.

Características Técnicas

Vantagens Tecnológicas Principais

Compatibilidade Multiplataforma: Suporta múltiplas plataformas como Android, iOS, Windows, Mac.
Capacidade de Percepção Visual: Utiliza ferramentas de percepção visual para identificar e localizar com precisão elementos visuais e textuais na interface de front-end do aplicativo.
Compreensão Multimodal: Combina compreensão visual e de linguagem para raciocínio em tarefas complexas.
Operação Ponta a Ponta: Fluxo de automação completo, desde a compreensão da tarefa até a execução.
Autoevolução: Melhora continuamente o desempenho através da aprendizagem por experiência.

Pontos de Inovação Tecnológica

Três Principais Inovações do GUI-Owl

Infraestrutura de Ambiente em Larga Escala: Ambientes virtuais baseados em nuvem, cobrindo Android, Ubuntu, macOS e Windows, suportando uma estrutura de produção de trajetória GUI autoevolutiva.
Capacidades Diversificadas de Agente Base: Integra localização de UI, planejamento, semântica de ação e modos de raciocínio, suportando a tomada de decisões ponta a ponta.
Aprendizagem por Reforço de Ambiente Escalável: Desenvolveu uma estrutura de aprendizagem por reforço escalável com treinamento totalmente assíncrono para alinhamento com o mundo real.

Desempenho

Resultados de Benchmarking

Mobile-Agent-v3 atingiu 73,3 pontos no AndroidWorld e 37,7 pontos no OSWorld, estabelecendo um novo padrão de ponta para estruturas de agentes GUI de código aberto.
Alcançou desempenho SOTA em várias listas de avaliação de automação de GUI, incluindo ScreenSpot-V2, ScreenSpot-Pro, OSWorld-G, MMBench-GUI, Android Control, Android World e OSWorld.

Otimização do Desempenho do Sistema

Baixo consumo de memória (8GB)
Velocidade de inferência rápida (10-15 segundos por operação)
Uso exclusivo de modelos de código aberto

Implementação Técnica

Requisitos de Ambiente

# Configuração do ambiente base
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt

Configuração da Plataforma Android

Baixe o Android Debug Bridge (ADB).
Ative a depuração ADB no seu telefone Android.
Conecte o telefone ao computador com um cabo de dados e selecione "Transferir arquivos".
Teste o ambiente ADB: /path/to/adb devices

Configuração da Plataforma PC

# Ambiente Windows
pip install -r requirements.txt

# Ambiente Mac  
pip install -r requirements_mac.txt

Configuração da API

{
  "vl_model_name": "gpt-4o",
  "llm_model_name": "gpt-4o", 
  "token": "sk-...",
  "url": "https://api.openai.com/v1"
}

Cenários de Aplicação

Tipos de Operação Suportados

Operações de Aplicativos Móveis: Clicar, deslizar, inserir texto, alternar aplicativos.
Operações de Aplicativos de PC: Controle de navegador, operação de software de escritório, uso de software de comunicação.
Tarefas Multiaplicativos: Fluxos de trabalho complexos entre vários aplicativos.
Tarefas de Raciocínio Complexo: Tarefas de longo prazo que exigem raciocínio em várias etapas.

Exemplos de Aplicação Prática

Compras online: Pesquisar produtos, comparar preços, adicionar ao carrinho.
Consulta de informações: Pesquisar notícias, obter resultados de jogos esportivos.
Automação de escritório: Escrever documentos, enviar e-mails, processamento de dados.
Mídias sociais: Publicar conteúdo, responder a mensagens, compartilhar informações.

Resultados Acadêmicos

Artigos Publicados

Mobile-Agent-v3 (2025): Foundamental Agents for GUI Automation
PC-Agent (ICLR 2025 Workshop): A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
Mobile-Agent-E (2025): Self-Evolving Mobile Assistant for Complex Tasks
Mobile-Agent-v2 (NeurIPS 2024): Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
Mobile-Agent (ICLR 2024 Workshop): Autonomous Multi-Modal Mobile Device Agent with Visual Perception

Prêmios Recebidos

Prêmio de Melhor Demonstração na 24ª Conferência Chinesa de Linguística Computacional (CCL 2025).
Prêmio de Melhor Demonstração na 23ª Conferência Chinesa de Linguística Computacional (CCL 2024).

Benchmarks de Avaliação

Benchmark Mobile-Eval

Mobile-Eval é um benchmark projetado para avaliar o desempenho de agentes de dispositivos móveis, incluindo 10 cenários de aplicativos únicos mainstream e 1 cenário multiaplicativo. Cada cenário é projetado com três tipos de instruções.

Exemplos de Cenários de Teste

Tarefa de compras: Encontrar um chapéu no site da Alibaba e adicioná-lo ao carrinho.
Reprodução de música: Pesquisar o cantor Jay Chou no Amazon Music.
Consulta de informações: Pesquisar os resultados do jogo dos Lakers de hoje.
Envio de e-mail: Enviar um e-mail vazio para um endereço especificado.

Pilha Tecnológica

Tecnologias Principais

Modelos de Linguagem Grandes Multimodais: GPT-4V, Qwen-VL, etc.
Percepção Visual: CLIP, GroundingDINO, etc.
Aprendizagem por Reforço: Trajectory-aware Relative Policy Optimization (TRPO).
Estrutura Multiagente: Arquitetura de colaboração hierárquica.

Plataformas Suportadas

Plataformas Móveis: Android, HarmonyOS (versão ≤ 4).
Plataformas Desktop: Windows, macOS, Ubuntu.
Navegadores: Chrome e outros navegadores mainstream.
Software de Escritório: Word, Excel, PowerPoint, etc.

Informações de Código Aberto

Estrutura do Repositório

MobileAgent/
├── Mobile-Agent/          # Versão original
├── Mobile-Agent-v2/       # Versão de colaboração multiagente
├── Mobile-Agent-v3/       # Versão mais recente baseada em GUI-Owl
├── Mobile-Agent-E/        # Versão autoevolutiva
├── PC-Agent/             # Versão para plataforma PC
└── requirements.txt      # Pacotes de dependência

Lançamento de Modelos

Os checkpoints dos modelos GUI-Owl-7B e GUI-Owl-32B foram lançados.
Suporta implantação nas plataformas HuggingFace e ModelScope.
Oferece experiência de demonstração online.

Comunidade e Ecossistema

Experiência Online

Projetos Relacionados

AppAgent: Agente multimodal como usuário de smartphone.
mPLUG-Owl: Modelo de linguagem grande multimodal modular.
Qwen-VL: Modelo de linguagem visual geral.
GroundingDINO: Detecção de objetos de conjunto aberto.

Desenvolvimento Futuro

Este projeto representa a vanguarda no desenvolvimento de agentes de automação de GUI, pavimentando o caminho para a realização de assistentes de IA verdadeiramente gerais através de inovação tecnológica contínua e otimização de desempenho. Com o aprimoramento das capacidades do modelo e a expansão dos cenários de aplicação, o Mobile-Agent deverá desempenhar um papel importante em mais cenários práticos.