Home
Login

Uma ferramenta simples de análise de tela para agentes de IA GUI puramente visuais

CC-BY-4.0Jupyter Notebook 22.5kmicrosoft Last Updated: 2025-03-26

Apresentação Detalhada do Projeto OmniParser

Visão Geral do Projeto

OmniParser é uma abordagem abrangente para analisar capturas de tela de interfaces de usuário em elementos estruturados e facilmente compreensíveis, o que aumenta significativamente a capacidade do GPT-4V de gerar operações que localizam com precisão as áreas correspondentes na interface.

Endereço do Projeto: https://github.com/microsoft/OmniParser

Funcionalidades Principais

1. Capacidade de Análise de Tela

  • Detecção de Ícones Interativos: Capacidade de identificar de forma confiável ícones interativos em interfaces de usuário.
  • Compreensão Semântica: Compreender a semântica de vários elementos em capturas de tela e associar com precisão as ações esperadas às áreas correspondentes na tela.
  • Saída Estruturada: Converter capturas de tela de UI em formatos estruturados, melhorando agentes de UI baseados em LLM.

2. Arquitetura Técnica

OmniParser contém dois componentes principais:

  • Conjunto de Dados de Detecção de Ícones Interativos: Curado de páginas da web populares e anotado automaticamente, destacando áreas clicáveis e acionáveis.
  • Conjunto de Dados de Descrição de Ícones: Associa cada elemento da UI à sua função correspondente.

Principais Características

OmniTool

OmniTool: Controle uma máquina virtual Windows 11 usando OmniParser + o modelo visual de sua escolha.

Funcionalidades suportadas:

  • Orquestração multi-agente
  • Registro local de trajetórias
  • Construção de um pipeline de dados de treinamento para seu domínio
  • Experiência de interface de usuário aprimorada

Modelos Suportados

  • OpenAI GPT-4o/o1/o3-mini
  • DeepSeek R1
  • Qwen 2.5VL
  • Anthropic Computer Use

Instalação e Uso

Configuração do Ambiente

cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

Download dos Pesos do Modelo

for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence

Executar a Demonstração

python gradio_demo.py

Desempenho

  • Atinge o melhor desempenho na Windows Agent Arena
  • Atinge os melhores resultados de última geração de 39,5% no benchmark de localização Screen Spot Pro GUI
  • Melhora significativamente a precisão do GPT-4V em tarefas de operação de GUI

Casos de Uso

  1. Teste de Automação de GUI: Identificar e operar automaticamente elementos da interface do usuário.
  2. Desenvolvimento de Assistentes Inteligentes: Construir assistentes de IA capazes de entender e operar interfaces gráficas.
  3. Tecnologia de Acessibilidade: Ajudar usuários com deficiência visual a entender o conteúdo da tela.
  4. Automação de Processos: Automatizar tarefas repetitivas de operação de GUI.
  5. Pesquisa de Experiência do Usuário: Analisar a usabilidade e a interatividade das interfaces de usuário.

Vantagens Técnicas

  1. Abordagem Puramente Visual: Não depende de código ou APIs de UI subjacentes, funciona apenas com informações visuais.
  2. Localização de Alta Precisão: Capaz de identificar com precisão a localização e a função de elementos interativos.
  3. Compatibilidade Multiplataforma: Suporta vários sistemas operacionais e aplicativos.
  4. Escalabilidade: Suporta a integração com vários modelos de linguagem grandes.

Conjunto de Dados e Modelo

Modelo de Detecção

  • Baseado na arquitetura YOLO
  • Usa licença AGPL
  • Treinado especificamente para detecção de elementos de UI

Modelo de Descrição

  • Baseado nas arquiteturas BLIP2 e Florence
  • Dedicado a gerar descrições funcionais de elementos de UI

Links Relacionados