microsoft/OmniParserPlease refer to the latest official releases for information GitHub Homepage

Uma ferramenta simples de análise de tela para agentes de IA GUI puramente visuais

CC-BY-4.0Jupyter Notebook 22.5kmicrosoft Last Updated: 2025-03-26

Apresentação Detalhada do Projeto OmniParser

Visão Geral do Projeto

OmniParser é uma abordagem abrangente para analisar capturas de tela de interfaces de usuário em elementos estruturados e facilmente compreensíveis, o que aumenta significativamente a capacidade do GPT-4V de gerar operações que localizam com precisão as áreas correspondentes na interface.

Endereço do Projeto: https://github.com/microsoft/OmniParser

Funcionalidades Principais

1. Capacidade de Análise de Tela

Detecção de Ícones Interativos: Capacidade de identificar de forma confiável ícones interativos em interfaces de usuário.
Compreensão Semântica: Compreender a semântica de vários elementos em capturas de tela e associar com precisão as ações esperadas às áreas correspondentes na tela.
Saída Estruturada: Converter capturas de tela de UI em formatos estruturados, melhorando agentes de UI baseados em LLM.

2. Arquitetura Técnica

OmniParser contém dois componentes principais:

Conjunto de Dados de Detecção de Ícones Interativos: Curado de páginas da web populares e anotado automaticamente, destacando áreas clicáveis e acionáveis.
Conjunto de Dados de Descrição de Ícones: Associa cada elemento da UI à sua função correspondente.

Principais Características

OmniTool

OmniTool: Controle uma máquina virtual Windows 11 usando OmniParser + o modelo visual de sua escolha.

Funcionalidades suportadas:

Orquestração multi-agente
Registro local de trajetórias
Construção de um pipeline de dados de treinamento para seu domínio
Experiência de interface de usuário aprimorada

Modelos Suportados

OpenAI GPT-4o/o1/o3-mini
DeepSeek R1
Qwen 2.5VL
Anthropic Computer Use

Instalação e Uso

Configuração do Ambiente

cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

Download dos Pesos do Modelo

for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence

Executar a Demonstração

python gradio_demo.py

Desempenho

Atinge o melhor desempenho na Windows Agent Arena
Atinge os melhores resultados de última geração de 39,5% no benchmark de localização Screen Spot Pro GUI
Melhora significativamente a precisão do GPT-4V em tarefas de operação de GUI

Casos de Uso

Teste de Automação de GUI: Identificar e operar automaticamente elementos da interface do usuário.
Desenvolvimento de Assistentes Inteligentes: Construir assistentes de IA capazes de entender e operar interfaces gráficas.
Tecnologia de Acessibilidade: Ajudar usuários com deficiência visual a entender o conteúdo da tela.
Automação de Processos: Automatizar tarefas repetitivas de operação de GUI.
Pesquisa de Experiência do Usuário: Analisar a usabilidade e a interatividade das interfaces de usuário.

Vantagens Técnicas

Abordagem Puramente Visual: Não depende de código ou APIs de UI subjacentes, funciona apenas com informações visuais.
Localização de Alta Precisão: Capaz de identificar com precisão a localização e a função de elementos interativos.
Compatibilidade Multiplataforma: Suporta vários sistemas operacionais e aplicativos.
Escalabilidade: Suporta a integração com vários modelos de linguagem grandes.

Conjunto de Dados e Modelo

Modelo de Detecção

Baseado na arquitetura YOLO
Usa licença AGPL
Treinado especificamente para detecção de elementos de UI

Modelo de Descrição

Baseado nas arquiteturas BLIP2 e Florence
Dedicado a gerar descrições funcionais de elementos de UI

Links Relacionados

Página Principal do Projeto: https://microsoft.github.io/OmniParser/
Modelo HuggingFace: https://huggingface.co/microsoft/OmniParser-v2.0
Demonstração Online: https://huggingface.co/spaces/microsoft/OmniParser-v2
Relatório Técnico: https://arxiv.org/abs/2408.00203