OmniParser ist ein umfassender Ansatz zur Analyse von Screenshots von Benutzeroberflächen in strukturierte und leicht verständliche Elemente. Dies verbessert die Fähigkeit von GPT-4V, Operationen, die den entsprechenden Bereichen der Benutzeroberfläche entsprechen, präzise zu lokalisieren, erheblich.
Projektadresse: https://github.com/microsoft/OmniParser
OmniParser besteht aus zwei Hauptkomponenten:
OmniTool: Steuern Sie eine Windows 11-VM mit OmniParser + Ihrem gewählten visuellen Modell.
Unterstützte Funktionen:
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence
python gradio_demo.py