Agentes GUI de base centrados no mundo real com interação nativa com o usuário, integração de ferramentas MCP e capacidades de colaboração dispositivo-nuvem
MAI-UI: Agentes de GUI Fundamentais Centrados no Mundo Real
Visão Geral
MAI-UI é uma família abrangente de agentes de GUI fundamentais desenvolvida pelo Tongyi Lab da Alibaba, que abrange todo o espectro de tamanhos de modelos, de 2B a 235B-A22B parâmetros. O projeto representa um avanço significativo na prática de agentes de GUI para implantação no mundo real, através de abordagens inovadoras para interação do usuário, integração de ferramentas e arquitetura de implantação.
Principais Recursos e Inovações
1. Modelos Fundamentais Multi-Escala
- Variantes de Modelo: 2B, 8B, 32B e 235B-A22B parâmetros
- Arquitetura Base: Construído sobre modelos de linguagem grandes multimodais Qwen3-VL
- Abordagem de Treinamento: Ajuste fino supervisionado conjunto e aprendizado por reforço
- Flexibilidade de Implantação: Adequado para várias restrições de hardware e requisitos de desempenho
2. Espaço de Ação Estendido
O MAI-UI introduz três capacidades críticas além das operações tradicionais de GUI:
Interação Agente-Usuário
- Ação
ask_user: Solicita proativamente esclarecimentos para instruções ambíguas - Conversa Dinâmica: Lida com requisitos do usuário incompletos ou pouco claros
- Aplicabilidade no Mundo Real: Aborda o cenário comum onde as instruções do usuário carecem de especificidade
Integração de Ferramentas MCP
- Ação
mcp_call: Invocação direta de ferramentas externas através do Model Context Protocol - Operações em nível de API: Alternativas eficientes para manipulações complexas de UI
- Funcionalidade Aprimorada: Acesso a serviços como mapeamento, gerenciamento de arquivos e recuperação de dados
Colaboração Dispositivo-Nuvem
- Roteamento Inteligente: Seleção dinâmica entre execução no dispositivo e na nuvem
- Preservação de Privacidade: Mantém operações sensíveis localmente enquanto aproveita a nuvem para tarefas complexas
- Otimização de Custos: Reduz chamadas de API na nuvem em mais de 40%
3. Pipeline de Dados Auto-Evolutivo
- Geração Autônoma de Dados: Melhoria contínua do corpus de treinamento
- Colaboração Multi-Agente: Combinação de anotações humanas e trajetórias geradas por modelos
- Filtragem de Qualidade: Modelos de julgamento avaliam e retêm caminhos de execução de alta qualidade
- Adaptação Dinâmica: Dados de treinamento evoluem com as capacidades do modelo
4. Aprendizado por Reforço Online em Larga Escala
- Paralelização Massiva: Até 512 ambientes Android paralelos
- Contexto Estendido: Suporte para até 50 passos de ambiente
- Melhorias Significativas: +5,2 pontos de escalonamento do ambiente, +4,3 pontos de aumento do orçamento de passos
- Robustez no Mundo Real: Treinamento em ambientes dinâmicos com pop-ups, anúncios e mudanças de UI
Conquistas de Desempenho
Benchmarks de Grounding de GUI
- ScreenSpot-Pro: 73,5% de precisão (supera Gemini-3-Pro e Seed1.8)
- MMBench GUI L2: 91,3% de precisão
- OSWorld-G: 70,9% de precisão
- UI-Vision: 49,2% de precisão
Benchmarks de Navegação Móvel
- AndroidWorld: 76,7% de taxa de sucesso (novo SOTA, superando UI-Tars-2, Gemini-2.5-Pro e Seed1.8)
- MobileWorld: 41,7% de taxa de sucesso (melhora de 20,8 pontos sobre as bases mais fortes)
Resultados de Colaboração Dispositivo-Nuvem
- Melhora de Desempenho: 33% de aprimoramento no desempenho no dispositivo
- Redução de Custos: Mais de 40% de redução nas chamadas de modelo na nuvem
- Preservação de Privacidade: 40,5% das tarefas concluídas inteiramente no dispositivo
Arquitetura Técnica
Fundação do Modelo
- Backbone: Arquitetura multimodal Qwen3-VL
- Modalidades de Entrada: Instruções em linguagem natural e capturas de tela de UI renderizadas
- Saída: Ações estruturadas para dispositivos Android ativos
- Espaço de Ação: Clique, deslize, entrada de texto, botões do sistema, além de capacidades de interação aprimoradas
Metodologia de Treinamento
- Ajuste Fino Supervisionado: Treinamento inicial em dados curados de grounding e navegação de GUI
- Aprendizado por Reforço Online: Melhoria contínua através da interação com ambientes ativos
- Pipeline Auto-Evolutivo: Geração autônoma de dados e melhoria de qualidade
- Integração Multidimensional: Interações do usuário, chamadas de ferramentas MCP e operações tradicionais de GUI
Sistema de Implantação
- Arquitetura Híbrida: Integração perfeita de modelos no dispositivo e na nuvem
- Roteamento Ciente de Tarefas: Tomada de decisão inteligente baseada na complexidade da tarefa e nos requisitos de privacidade
- Design com Foco em Privacidade: Operações sensíveis permanecem locais enquanto tarefas complexas aproveitam as capacidades da nuvem
- Otimização de Custos: Utilização eficiente de recursos através da distribuição inteligente de carga de trabalho
Aplicações no Mundo Real
Uso Doméstico e Pessoal
- Compras Inteligentes: Sugestões proativas baseadas na integração de calendário
- Automação de Tarefas: Fluxos de trabalho complexos multi-aplicativos para atividades diárias
- Assistência Contextual: Compreensão da intenção do usuário através de conversação natural
Uso Profissional e de Escritório
- Gerenciamento de Documentos: Manipulação e compartilhamento inteligente de arquivos
- Assistência de Comunicação: Composição de e-mail com consciência contextual
- Integração entre Aplicativos: Fluxos de trabalho contínuos entre vários aplicativos
Serviços de Navegação e Localização
- Planejamento de Rotas: Integração com serviços de mapeamento através de ferramentas MCP
- Sugestões Cientes de Localização: Recomendações sensíveis ao contexto
- Transporte Multimodal: Suporte para vários métodos de transporte
Especificações Técnicas
Requisitos
- vLLM: Versão ≥0.11.0
- Transformers: Versão ≥4.57.0
- Python: Compatível com o ecossistema ML padrão
- Hardware: Escalável de dispositivos móveis a infraestrutura de nuvem
Modelos Disponíveis
- MAI-UI-2B: Modelo leve para ambientes com restrições de recursos
- MAI-UI-8B: Desempenho e eficiência balanceados
- Variantes Maiores: 32B e 235B-A22B para capacidade máxima
Opções de Integração
- Serviço de API: Interface compatível com OpenAI através de vLLM
- Integração Direta: SDK Python para aplicativos personalizados
- Implantação em Contêiner: Suporte Docker para implantação escalável
Impacto da Pesquisa
Liderança em Benchmarks
O MAI-UI estabelece novos estados da arte em desempenho em vários benchmarks autoritativos, demonstrando avanço teórico e aplicabilidade prática.
Contribuições Metodológicas
- Colaboração Dispositivo-Nuvem: Nova arquitetura de implantação para agentes de GUI
- Dados Auto-Evolutivos: Melhoria autônoma de conjuntos de dados de treinamento
- Modelo de Interação Estendido: Suporte nativo para diálogo do usuário e integração de ferramentas
Aplicações Industriais
O projeto aborda desafios de implantação no mundo real que historicamente limitaram a adoção de agentes de GUI, tornando-o adequado para ambientes de produção.
Compromisso com Código Aberto
Licenciamento
- Licença Apache 2.0: Licenciamento permissivo para uso comercial e de pesquisa
- Componentes de Terceiros: Claramente documentados com atribuições apropriadas
- Contribuição da Comunidade: Modelo de desenvolvimento aberto incentivando a colaboração
Recursos Disponíveis
- Modelos: MAI-UI-2B e MAI-UI-8B no Hugging Face
- Código: Implementação completa no GitHub
- Documentação: Relatórios técnicos abrangentes e guias de uso
- Benchmarks: Benchmark MobileWorld para avaliação
Direções Futuras
Extensões de Pesquisa
- Variantes de Modelo Maiores: Desenvolvimento contínuo dos modelos 32B e 235B
- Suporte Multiplataforma: Extensão além do Android para plataformas iOS e desktop
- Integração de Ferramentas Aprimorada: Ecossistema mais amplo de ferramentas MCP
Aplicações Comerciais
- Implantação Empresarial: Integração com fluxos de trabalho de negócios
- Soluções de Acessibilidade: Assistência para usuários com deficiência
- Aprimoramento de Produtividade: Automação avançada para trabalhadores do conhecimento
Informações de Citação
@misc{zhou2025maiuitechnicalreportrealworld,
title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
year={2025},
eprint={2512.22047},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2512.22047}
}
Informações de Contato
- Líder do Projeto: Hanzhang Zhou (hanzhang.zhou@alibaba-inc.com)
- Líder Técnico: Xu Zhang (hanguang.zx@alibaba-inc.com)
- Diretor de Pesquisa: Yue Wang (yue.w@alibaba-inc.com)
- Instituição: Tongyi Lab, Alibaba Group
Recursos Adicionais
- Website do Projeto: https://tongyi-mai.github.io/MAI-UI/
- Repositório GitHub: https://github.com/Tongyi-MAI/MAI-UI
- Modelos Hugging Face: https://huggingface.co/Tongyi-MAI
- Artigo Técnico: https://arxiv.org/abs/2512.22047
- Benchmark MobileWorld: https://github.com/Tongyi-MAI/MobileWorld