OmniParser é uma abordagem abrangente para analisar capturas de tela de interfaces de usuário em elementos estruturados e facilmente compreensíveis, o que aumenta significativamente a capacidade do GPT-4V de gerar operações que localizam com precisão as áreas correspondentes na interface.
Endereço do Projeto: https://github.com/microsoft/OmniParser
OmniParser contém dois componentes principais:
OmniTool: Controle uma máquina virtual Windows 11 usando OmniParser + o modelo visual de sua escolha.
Funcionalidades suportadas:
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence
python gradio_demo.py