Uma poderosa família de agentes inteligentes de automação de GUI multimodal, suportando operações ponta a ponta em dispositivos móveis e plataformas de PC.
Descrição Detalhada do Projeto Mobile-Agent
Visão Geral do Projeto
Mobile-Agent é uma poderosa família de agentes GUI desenvolvida pela equipe Alibaba X-PLUG, um sistema de agente multimodal ponta a ponta projetado especificamente para dispositivos móveis e plataformas PC. O projeto visa alcançar a automação da GUI, operando autonomamente várias aplicações através de percepção visual, planejamento de raciocínio e execução de ações.
Arquitetura e Componentes do Projeto
Série de Componentes Principais
1. Modelo Base GUI-Owl
GUI-Owl é um modelo de agente GUI fundamental que alcançou o desempenho de ponta para modelos de código aberto ponta a ponta em dez benchmarks de GUI, cobrindo localização, Q&A, planejamento, tomada de decisão e conhecimento processual em ambientes de desktop e móveis. GUI-Owl-7B atingiu 66,4 pontos no AndroidWorld e 29,4 pontos no OSWorld.
2. Mobile-Agent-v3
Mobile-Agent-v3 é uma estrutura multiagente multiplataforma baseada em GUI-Owl, oferecendo recursos como planejamento, gerenciamento de progresso, reflexão e memória. É um agente multimodal nativo ponta a ponta, projetado como um modelo fundamental para automação de GUI, unificando percepção, localização, raciocínio, planejamento e execução de ações em uma única rede de políticas.
3. Mobile-Agent-E
Mobile-Agent-E é uma estrutura multiagente hierárquica com capacidade de autoevolução, capaz de evoluir através de experiências passadas e demonstrar maior desempenho em tarefas complexas multiaplicativos.
4. PC-Agent
PC-Agent é um sistema de colaboração multiagente que pode automatizar o controle de cenários de produtividade (como Chrome, Word e WeChat) com base nas instruções do usuário. Seu módulo de percepção ativa, projetado para elementos de interação densos e diversos, adapta-se melhor à plataforma PC. A estrutura de colaboração multiagente hierárquica melhora a taxa de sucesso para sequências de tarefas mais complexas. Atualmente, suporta Windows e Mac.
5. Mobile-Agent-v2
Mobile-Agent-v2 é um assistente de operação de dispositivo móvel que alcança navegação eficaz através da colaboração multiagente. A arquitetura multiagente aborda os desafios de navegação em cenários de entrada de contexto longo. O módulo de percepção visual aprimorado melhora significativamente a precisão da operação.
Características Técnicas
Vantagens Tecnológicas Principais
- Compatibilidade Multiplataforma: Suporta múltiplas plataformas como Android, iOS, Windows, Mac.
- Capacidade de Percepção Visual: Utiliza ferramentas de percepção visual para identificar e localizar com precisão elementos visuais e textuais na interface de front-end do aplicativo.
- Compreensão Multimodal: Combina compreensão visual e de linguagem para raciocínio em tarefas complexas.
- Operação Ponta a Ponta: Fluxo de automação completo, desde a compreensão da tarefa até a execução.
- Autoevolução: Melhora continuamente o desempenho através da aprendizagem por experiência.
Pontos de Inovação Tecnológica
Três Principais Inovações do GUI-Owl
- Infraestrutura de Ambiente em Larga Escala: Ambientes virtuais baseados em nuvem, cobrindo Android, Ubuntu, macOS e Windows, suportando uma estrutura de produção de trajetória GUI autoevolutiva.
- Capacidades Diversificadas de Agente Base: Integra localização de UI, planejamento, semântica de ação e modos de raciocínio, suportando a tomada de decisões ponta a ponta.
- Aprendizagem por Reforço de Ambiente Escalável: Desenvolveu uma estrutura de aprendizagem por reforço escalável com treinamento totalmente assíncrono para alinhamento com o mundo real.
Desempenho
Resultados de Benchmarking
- Mobile-Agent-v3 atingiu 73,3 pontos no AndroidWorld e 37,7 pontos no OSWorld, estabelecendo um novo padrão de ponta para estruturas de agentes GUI de código aberto.
- Alcançou desempenho SOTA em várias listas de avaliação de automação de GUI, incluindo ScreenSpot-V2, ScreenSpot-Pro, OSWorld-G, MMBench-GUI, Android Control, Android World e OSWorld.
Otimização do Desempenho do Sistema
- Baixo consumo de memória (8GB)
- Velocidade de inferência rápida (10-15 segundos por operação)
- Uso exclusivo de modelos de código aberto
Implementação Técnica
Requisitos de Ambiente
# Configuração do ambiente base
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt
Configuração da Plataforma Android
- Baixe o Android Debug Bridge (ADB).
- Ative a depuração ADB no seu telefone Android.
- Conecte o telefone ao computador com um cabo de dados e selecione "Transferir arquivos".
- Teste o ambiente ADB:
/path/to/adb devices
Configuração da Plataforma PC
# Ambiente Windows
pip install -r requirements.txt
# Ambiente Mac
pip install -r requirements_mac.txt
Configuração da API
{
"vl_model_name": "gpt-4o",
"llm_model_name": "gpt-4o",
"token": "sk-...",
"url": "https://api.openai.com/v1"
}
Cenários de Aplicação
Tipos de Operação Suportados
- Operações de Aplicativos Móveis: Clicar, deslizar, inserir texto, alternar aplicativos.
- Operações de Aplicativos de PC: Controle de navegador, operação de software de escritório, uso de software de comunicação.
- Tarefas Multiaplicativos: Fluxos de trabalho complexos entre vários aplicativos.
- Tarefas de Raciocínio Complexo: Tarefas de longo prazo que exigem raciocínio em várias etapas.
Exemplos de Aplicação Prática
- Compras online: Pesquisar produtos, comparar preços, adicionar ao carrinho.
- Consulta de informações: Pesquisar notícias, obter resultados de jogos esportivos.
- Automação de escritório: Escrever documentos, enviar e-mails, processamento de dados.
- Mídias sociais: Publicar conteúdo, responder a mensagens, compartilhar informações.
Resultados Acadêmicos
Artigos Publicados
- Mobile-Agent-v3 (2025): Foundamental Agents for GUI Automation
- PC-Agent (ICLR 2025 Workshop): A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
- Mobile-Agent-E (2025): Self-Evolving Mobile Assistant for Complex Tasks
- Mobile-Agent-v2 (NeurIPS 2024): Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
- Mobile-Agent (ICLR 2024 Workshop): Autonomous Multi-Modal Mobile Device Agent with Visual Perception
Prêmios Recebidos
- Prêmio de Melhor Demonstração na 24ª Conferência Chinesa de Linguística Computacional (CCL 2025).
- Prêmio de Melhor Demonstração na 23ª Conferência Chinesa de Linguística Computacional (CCL 2024).
Benchmarks de Avaliação
Benchmark Mobile-Eval
Mobile-Eval é um benchmark projetado para avaliar o desempenho de agentes de dispositivos móveis, incluindo 10 cenários de aplicativos únicos mainstream e 1 cenário multiaplicativo. Cada cenário é projetado com três tipos de instruções.
Exemplos de Cenários de Teste
- Tarefa de compras: Encontrar um chapéu no site da Alibaba e adicioná-lo ao carrinho.
- Reprodução de música: Pesquisar o cantor Jay Chou no Amazon Music.
- Consulta de informações: Pesquisar os resultados do jogo dos Lakers de hoje.
- Envio de e-mail: Enviar um e-mail vazio para um endereço especificado.
Pilha Tecnológica
Tecnologias Principais
- Modelos de Linguagem Grandes Multimodais: GPT-4V, Qwen-VL, etc.
- Percepção Visual: CLIP, GroundingDINO, etc.
- Aprendizagem por Reforço: Trajectory-aware Relative Policy Optimization (TRPO).
- Estrutura Multiagente: Arquitetura de colaboração hierárquica.
Plataformas Suportadas
- Plataformas Móveis: Android, HarmonyOS (versão ≤ 4).
- Plataformas Desktop: Windows, macOS, Ubuntu.
- Navegadores: Chrome e outros navegadores mainstream.
- Software de Escritório: Word, Excel, PowerPoint, etc.
Informações de Código Aberto
Estrutura do Repositório
MobileAgent/
├── Mobile-Agent/ # Versão original
├── Mobile-Agent-v2/ # Versão de colaboração multiagente
├── Mobile-Agent-v3/ # Versão mais recente baseada em GUI-Owl
├── Mobile-Agent-E/ # Versão autoevolutiva
├── PC-Agent/ # Versão para plataforma PC
└── requirements.txt # Pacotes de dependência
Lançamento de Modelos
- Os checkpoints dos modelos GUI-Owl-7B e GUI-Owl-32B foram lançados.
- Suporta implantação nas plataformas HuggingFace e ModelScope.
- Oferece experiência de demonstração online.
Comunidade e Ecossistema
Experiência Online
Projetos Relacionados
- AppAgent: Agente multimodal como usuário de smartphone.
- mPLUG-Owl: Modelo de linguagem grande multimodal modular.
- Qwen-VL: Modelo de linguagem visual geral.
- GroundingDINO: Detecção de objetos de conjunto aberto.
Desenvolvimento Futuro
Este projeto representa a vanguarda no desenvolvimento de agentes de automação de GUI, pavimentando o caminho para a realização de assistentes de IA verdadeiramente gerais através de inovação tecnológica contínua e otimização de desempenho. Com o aprimoramento das capacidades do modelo e a expansão dos cenários de aplicação, o Mobile-Agent deverá desempenhar um papel importante em mais cenários práticos.