Agentes GUI de base centrados no mundo real com interação nativa com o usuário, integração de ferramentas MCP e capacidades de colaboração dispositivo-nuvem

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI: Agentes de GUI Fundamentais Centrados no Mundo Real

Visão Geral

MAI-UI é uma família abrangente de agentes de GUI fundamentais desenvolvida pelo Tongyi Lab da Alibaba, que abrange todo o espectro de tamanhos de modelos, de 2B a 235B-A22B parâmetros. O projeto representa um avanço significativo na prática de agentes de GUI para implantação no mundo real, através de abordagens inovadoras para interação do usuário, integração de ferramentas e arquitetura de implantação.

Principais Recursos e Inovações

1. Modelos Fundamentais Multi-Escala

  • Variantes de Modelo: 2B, 8B, 32B e 235B-A22B parâmetros
  • Arquitetura Base: Construído sobre modelos de linguagem grandes multimodais Qwen3-VL
  • Abordagem de Treinamento: Ajuste fino supervisionado conjunto e aprendizado por reforço
  • Flexibilidade de Implantação: Adequado para várias restrições de hardware e requisitos de desempenho

2. Espaço de Ação Estendido

O MAI-UI introduz três capacidades críticas além das operações tradicionais de GUI:

Interação Agente-Usuário

  • Ação ask_user: Solicita proativamente esclarecimentos para instruções ambíguas
  • Conversa Dinâmica: Lida com requisitos do usuário incompletos ou pouco claros
  • Aplicabilidade no Mundo Real: Aborda o cenário comum onde as instruções do usuário carecem de especificidade

Integração de Ferramentas MCP

  • Ação mcp_call: Invocação direta de ferramentas externas através do Model Context Protocol
  • Operações em nível de API: Alternativas eficientes para manipulações complexas de UI
  • Funcionalidade Aprimorada: Acesso a serviços como mapeamento, gerenciamento de arquivos e recuperação de dados

Colaboração Dispositivo-Nuvem

  • Roteamento Inteligente: Seleção dinâmica entre execução no dispositivo e na nuvem
  • Preservação de Privacidade: Mantém operações sensíveis localmente enquanto aproveita a nuvem para tarefas complexas
  • Otimização de Custos: Reduz chamadas de API na nuvem em mais de 40%

3. Pipeline de Dados Auto-Evolutivo

  • Geração Autônoma de Dados: Melhoria contínua do corpus de treinamento
  • Colaboração Multi-Agente: Combinação de anotações humanas e trajetórias geradas por modelos
  • Filtragem de Qualidade: Modelos de julgamento avaliam e retêm caminhos de execução de alta qualidade
  • Adaptação Dinâmica: Dados de treinamento evoluem com as capacidades do modelo

4. Aprendizado por Reforço Online em Larga Escala

  • Paralelização Massiva: Até 512 ambientes Android paralelos
  • Contexto Estendido: Suporte para até 50 passos de ambiente
  • Melhorias Significativas: +5,2 pontos de escalonamento do ambiente, +4,3 pontos de aumento do orçamento de passos
  • Robustez no Mundo Real: Treinamento em ambientes dinâmicos com pop-ups, anúncios e mudanças de UI

Conquistas de Desempenho

Benchmarks de Grounding de GUI

  • ScreenSpot-Pro: 73,5% de precisão (supera Gemini-3-Pro e Seed1.8)
  • MMBench GUI L2: 91,3% de precisão
  • OSWorld-G: 70,9% de precisão
  • UI-Vision: 49,2% de precisão

Benchmarks de Navegação Móvel

  • AndroidWorld: 76,7% de taxa de sucesso (novo SOTA, superando UI-Tars-2, Gemini-2.5-Pro e Seed1.8)
  • MobileWorld: 41,7% de taxa de sucesso (melhora de 20,8 pontos sobre as bases mais fortes)

Resultados de Colaboração Dispositivo-Nuvem

  • Melhora de Desempenho: 33% de aprimoramento no desempenho no dispositivo
  • Redução de Custos: Mais de 40% de redução nas chamadas de modelo na nuvem
  • Preservação de Privacidade: 40,5% das tarefas concluídas inteiramente no dispositivo

Arquitetura Técnica

Fundação do Modelo

  • Backbone: Arquitetura multimodal Qwen3-VL
  • Modalidades de Entrada: Instruções em linguagem natural e capturas de tela de UI renderizadas
  • Saída: Ações estruturadas para dispositivos Android ativos
  • Espaço de Ação: Clique, deslize, entrada de texto, botões do sistema, além de capacidades de interação aprimoradas

Metodologia de Treinamento

  1. Ajuste Fino Supervisionado: Treinamento inicial em dados curados de grounding e navegação de GUI
  2. Aprendizado por Reforço Online: Melhoria contínua através da interação com ambientes ativos
  3. Pipeline Auto-Evolutivo: Geração autônoma de dados e melhoria de qualidade
  4. Integração Multidimensional: Interações do usuário, chamadas de ferramentas MCP e operações tradicionais de GUI

Sistema de Implantação

  • Arquitetura Híbrida: Integração perfeita de modelos no dispositivo e na nuvem
  • Roteamento Ciente de Tarefas: Tomada de decisão inteligente baseada na complexidade da tarefa e nos requisitos de privacidade
  • Design com Foco em Privacidade: Operações sensíveis permanecem locais enquanto tarefas complexas aproveitam as capacidades da nuvem
  • Otimização de Custos: Utilização eficiente de recursos através da distribuição inteligente de carga de trabalho

Aplicações no Mundo Real

Uso Doméstico e Pessoal

  • Compras Inteligentes: Sugestões proativas baseadas na integração de calendário
  • Automação de Tarefas: Fluxos de trabalho complexos multi-aplicativos para atividades diárias
  • Assistência Contextual: Compreensão da intenção do usuário através de conversação natural

Uso Profissional e de Escritório

  • Gerenciamento de Documentos: Manipulação e compartilhamento inteligente de arquivos
  • Assistência de Comunicação: Composição de e-mail com consciência contextual
  • Integração entre Aplicativos: Fluxos de trabalho contínuos entre vários aplicativos

Serviços de Navegação e Localização

  • Planejamento de Rotas: Integração com serviços de mapeamento através de ferramentas MCP
  • Sugestões Cientes de Localização: Recomendações sensíveis ao contexto
  • Transporte Multimodal: Suporte para vários métodos de transporte

Especificações Técnicas

Requisitos

  • vLLM: Versão ≥0.11.0
  • Transformers: Versão ≥4.57.0
  • Python: Compatível com o ecossistema ML padrão
  • Hardware: Escalável de dispositivos móveis a infraestrutura de nuvem

Modelos Disponíveis

  • MAI-UI-2B: Modelo leve para ambientes com restrições de recursos
  • MAI-UI-8B: Desempenho e eficiência balanceados
  • Variantes Maiores: 32B e 235B-A22B para capacidade máxima

Opções de Integração

  • Serviço de API: Interface compatível com OpenAI através de vLLM
  • Integração Direta: SDK Python para aplicativos personalizados
  • Implantação em Contêiner: Suporte Docker para implantação escalável

Impacto da Pesquisa

Liderança em Benchmarks

O MAI-UI estabelece novos estados da arte em desempenho em vários benchmarks autoritativos, demonstrando avanço teórico e aplicabilidade prática.

Contribuições Metodológicas

  • Colaboração Dispositivo-Nuvem: Nova arquitetura de implantação para agentes de GUI
  • Dados Auto-Evolutivos: Melhoria autônoma de conjuntos de dados de treinamento
  • Modelo de Interação Estendido: Suporte nativo para diálogo do usuário e integração de ferramentas

Aplicações Industriais

O projeto aborda desafios de implantação no mundo real que historicamente limitaram a adoção de agentes de GUI, tornando-o adequado para ambientes de produção.

Compromisso com Código Aberto

Licenciamento

  • Licença Apache 2.0: Licenciamento permissivo para uso comercial e de pesquisa
  • Componentes de Terceiros: Claramente documentados com atribuições apropriadas
  • Contribuição da Comunidade: Modelo de desenvolvimento aberto incentivando a colaboração

Recursos Disponíveis

  • Modelos: MAI-UI-2B e MAI-UI-8B no Hugging Face
  • Código: Implementação completa no GitHub
  • Documentação: Relatórios técnicos abrangentes e guias de uso
  • Benchmarks: Benchmark MobileWorld para avaliação

Direções Futuras

Extensões de Pesquisa

  • Variantes de Modelo Maiores: Desenvolvimento contínuo dos modelos 32B e 235B
  • Suporte Multiplataforma: Extensão além do Android para plataformas iOS e desktop
  • Integração de Ferramentas Aprimorada: Ecossistema mais amplo de ferramentas MCP

Aplicações Comerciais

  • Implantação Empresarial: Integração com fluxos de trabalho de negócios
  • Soluções de Acessibilidade: Assistência para usuários com deficiência
  • Aprimoramento de Produtividade: Automação avançada para trabalhadores do conhecimento

Informações de Citação

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

Informações de Contato

Recursos Adicionais

Star History Chart