Tongyi-MAI/MAI-UI View GitHub Homepage for Latest Official Releases

Agentes GUI de base centrados no mundo real com interação nativa com o usuário, integração de ferramentas MCP e capacidades de colaboração dispositivo-nuvem

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI: Agentes de GUI Fundamentais Centrados no Mundo Real

Visão Geral

MAI-UI é uma família abrangente de agentes de GUI fundamentais desenvolvida pelo Tongyi Lab da Alibaba, que abrange todo o espectro de tamanhos de modelos, de 2B a 235B-A22B parâmetros. O projeto representa um avanço significativo na prática de agentes de GUI para implantação no mundo real, através de abordagens inovadoras para interação do usuário, integração de ferramentas e arquitetura de implantação.

Principais Recursos e Inovações

1. Modelos Fundamentais Multi-Escala

Variantes de Modelo: 2B, 8B, 32B e 235B-A22B parâmetros
Arquitetura Base: Construído sobre modelos de linguagem grandes multimodais Qwen3-VL
Abordagem de Treinamento: Ajuste fino supervisionado conjunto e aprendizado por reforço
Flexibilidade de Implantação: Adequado para várias restrições de hardware e requisitos de desempenho

2. Espaço de Ação Estendido

O MAI-UI introduz três capacidades críticas além das operações tradicionais de GUI:

Interação Agente-Usuário

Ação ask_user: Solicita proativamente esclarecimentos para instruções ambíguas
Conversa Dinâmica: Lida com requisitos do usuário incompletos ou pouco claros
Aplicabilidade no Mundo Real: Aborda o cenário comum onde as instruções do usuário carecem de especificidade

Integração de Ferramentas MCP

Ação mcp_call: Invocação direta de ferramentas externas através do Model Context Protocol
Operações em nível de API: Alternativas eficientes para manipulações complexas de UI
Funcionalidade Aprimorada: Acesso a serviços como mapeamento, gerenciamento de arquivos e recuperação de dados

Colaboração Dispositivo-Nuvem

Roteamento Inteligente: Seleção dinâmica entre execução no dispositivo e na nuvem
Preservação de Privacidade: Mantém operações sensíveis localmente enquanto aproveita a nuvem para tarefas complexas
Otimização de Custos: Reduz chamadas de API na nuvem em mais de 40%

3. Pipeline de Dados Auto-Evolutivo

Geração Autônoma de Dados: Melhoria contínua do corpus de treinamento
Colaboração Multi-Agente: Combinação de anotações humanas e trajetórias geradas por modelos
Filtragem de Qualidade: Modelos de julgamento avaliam e retêm caminhos de execução de alta qualidade
Adaptação Dinâmica: Dados de treinamento evoluem com as capacidades do modelo

4. Aprendizado por Reforço Online em Larga Escala

Paralelização Massiva: Até 512 ambientes Android paralelos
Contexto Estendido: Suporte para até 50 passos de ambiente
Melhorias Significativas: +5,2 pontos de escalonamento do ambiente, +4,3 pontos de aumento do orçamento de passos
Robustez no Mundo Real: Treinamento em ambientes dinâmicos com pop-ups, anúncios e mudanças de UI

Conquistas de Desempenho

Benchmarks de Grounding de GUI

ScreenSpot-Pro: 73,5% de precisão (supera Gemini-3-Pro e Seed1.8)
MMBench GUI L2: 91,3% de precisão
OSWorld-G: 70,9% de precisão
UI-Vision: 49,2% de precisão

Benchmarks de Navegação Móvel

AndroidWorld: 76,7% de taxa de sucesso (novo SOTA, superando UI-Tars-2, Gemini-2.5-Pro e Seed1.8)
MobileWorld: 41,7% de taxa de sucesso (melhora de 20,8 pontos sobre as bases mais fortes)

Resultados de Colaboração Dispositivo-Nuvem

Melhora de Desempenho: 33% de aprimoramento no desempenho no dispositivo
Redução de Custos: Mais de 40% de redução nas chamadas de modelo na nuvem
Preservação de Privacidade: 40,5% das tarefas concluídas inteiramente no dispositivo

Arquitetura Técnica

Fundação do Modelo

Backbone: Arquitetura multimodal Qwen3-VL
Modalidades de Entrada: Instruções em linguagem natural e capturas de tela de UI renderizadas
Saída: Ações estruturadas para dispositivos Android ativos
Espaço de Ação: Clique, deslize, entrada de texto, botões do sistema, além de capacidades de interação aprimoradas

Metodologia de Treinamento

Ajuste Fino Supervisionado: Treinamento inicial em dados curados de grounding e navegação de GUI
Aprendizado por Reforço Online: Melhoria contínua através da interação com ambientes ativos
Pipeline Auto-Evolutivo: Geração autônoma de dados e melhoria de qualidade
Integração Multidimensional: Interações do usuário, chamadas de ferramentas MCP e operações tradicionais de GUI

Sistema de Implantação

Arquitetura Híbrida: Integração perfeita de modelos no dispositivo e na nuvem
Roteamento Ciente de Tarefas: Tomada de decisão inteligente baseada na complexidade da tarefa e nos requisitos de privacidade
Design com Foco em Privacidade: Operações sensíveis permanecem locais enquanto tarefas complexas aproveitam as capacidades da nuvem
Otimização de Custos: Utilização eficiente de recursos através da distribuição inteligente de carga de trabalho

Aplicações no Mundo Real

Uso Doméstico e Pessoal

Compras Inteligentes: Sugestões proativas baseadas na integração de calendário
Automação de Tarefas: Fluxos de trabalho complexos multi-aplicativos para atividades diárias
Assistência Contextual: Compreensão da intenção do usuário através de conversação natural

Uso Profissional e de Escritório

Gerenciamento de Documentos: Manipulação e compartilhamento inteligente de arquivos
Assistência de Comunicação: Composição de e-mail com consciência contextual
Integração entre Aplicativos: Fluxos de trabalho contínuos entre vários aplicativos

Serviços de Navegação e Localização

Planejamento de Rotas: Integração com serviços de mapeamento através de ferramentas MCP
Sugestões Cientes de Localização: Recomendações sensíveis ao contexto
Transporte Multimodal: Suporte para vários métodos de transporte

Especificações Técnicas

Requisitos

vLLM: Versão ≥0.11.0
Transformers: Versão ≥4.57.0
Python: Compatível com o ecossistema ML padrão
Hardware: Escalável de dispositivos móveis a infraestrutura de nuvem

Modelos Disponíveis

MAI-UI-2B: Modelo leve para ambientes com restrições de recursos
MAI-UI-8B: Desempenho e eficiência balanceados
Variantes Maiores: 32B e 235B-A22B para capacidade máxima

Opções de Integração

Serviço de API: Interface compatível com OpenAI através de vLLM
Integração Direta: SDK Python para aplicativos personalizados
Implantação em Contêiner: Suporte Docker para implantação escalável

Impacto da Pesquisa

Liderança em Benchmarks

O MAI-UI estabelece novos estados da arte em desempenho em vários benchmarks autoritativos, demonstrando avanço teórico e aplicabilidade prática.

Contribuições Metodológicas

Colaboração Dispositivo-Nuvem: Nova arquitetura de implantação para agentes de GUI
Dados Auto-Evolutivos: Melhoria autônoma de conjuntos de dados de treinamento
Modelo de Interação Estendido: Suporte nativo para diálogo do usuário e integração de ferramentas

Aplicações Industriais

O projeto aborda desafios de implantação no mundo real que historicamente limitaram a adoção de agentes de GUI, tornando-o adequado para ambientes de produção.

Compromisso com Código Aberto

Licenciamento

Licença Apache 2.0: Licenciamento permissivo para uso comercial e de pesquisa
Componentes de Terceiros: Claramente documentados com atribuições apropriadas
Contribuição da Comunidade: Modelo de desenvolvimento aberto incentivando a colaboração

Recursos Disponíveis

Modelos: MAI-UI-2B e MAI-UI-8B no Hugging Face
Código: Implementação completa no GitHub
Documentação: Relatórios técnicos abrangentes e guias de uso
Benchmarks: Benchmark MobileWorld para avaliação

Direções Futuras

Extensões de Pesquisa

Variantes de Modelo Maiores: Desenvolvimento contínuo dos modelos 32B e 235B
Suporte Multiplataforma: Extensão além do Android para plataformas iOS e desktop
Integração de Ferramentas Aprimorada: Ecossistema mais amplo de ferramentas MCP

Aplicações Comerciais

Implantação Empresarial: Integração com fluxos de trabalho de negócios
Soluções de Acessibilidade: Assistência para usuários com deficiência
Aprimoramento de Produtividade: Automação avançada para trabalhadores do conhecimento

Informações de Citação

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

Informações de Contato

Líder do Projeto: Hanzhang Zhou (hanzhang.zhou@alibaba-inc.com)
Líder Técnico: Xu Zhang (hanguang.zx@alibaba-inc.com)
Diretor de Pesquisa: Yue Wang (yue.w@alibaba-inc.com)
Instituição: Tongyi Lab, Alibaba Group

Recursos Adicionais

Website do Projeto: https://tongyi-mai.github.io/MAI-UI/
Repositório GitHub: https://github.com/Tongyi-MAI/MAI-UI
Modelos Hugging Face: https://huggingface.co/Tongyi-MAI
Artigo Técnico: https://arxiv.org/abs/2512.22047
Benchmark MobileWorld: https://github.com/Tongyi-MAI/MobileWorld