OmniParser 是一個全面的方法,用於將使用者介面截圖解析為結構化且易於理解的元素,這顯著增強了 GPT-4V 生成能夠準確定位到介面對應區域的操作的能力。
項目地址: https://github.com/microsoft/OmniParser
OmniParser 包含兩個主要組件:
OmniTool:使用 OmniParser + 您選擇的視覺模型控制 Windows 11 虛擬機器
支援功能:
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence
python gradio_demo.py