GLM-4.5V und GLM-4.1V Serie: Open-Source-Modelle für visuelle Sprache zur diversifizierten multimodalen Inferenz, die die visuelle Inferenzfähigkeit durch Reinforcement Learning verbessern.
GLM-V Projekt detaillierte Vorstellung
Projektübersicht
GLM-V ist eine Open-Source-Serie multimodaler visueller Sprachmodelle von Zhipu AI (Z.ai), die die Hauptmodelle GLM-4.5V und GLM-4.1V umfasst. Dieses Projekt zielt darauf ab, die technologischen Grenzen visueller Sprachmodelle bei komplexen Inferenzaufgaben zu erforschen und die multimodalen Verständnis- und Inferenzfähigkeiten des Modells durch Reinforcement Learning-Technologien erheblich zu verbessern.
GitHub-Adresse: https://github.com/zai-org/GLM-V
Kernmerkmale
🚀 Hauptfähigkeiten
- Bildinferenz: Szenenverständnis, komplexe Multi-Bild-Analyse, räumliche Erkennung
- Videoverständnis: Segmentierung langer Videos und Ereigniserkennung
- GUI-Aufgaben: Bildschirmlesen, Symbolerkennung, Unterstützung bei Desktop-Operationen
- Analyse komplexer Diagramme und langer Dokumente: Analyse von Forschungsberichten, Informationsgewinnung
- Präzise Lokalisierung: Fähigkeit zur präzisen Lokalisierung visueller Elemente
🧠 Umschaltung des Denkmodus
Das Modell führt einen Schalter für den Denkmodus (Thinking Mode) ein, der es Benutzern ermöglicht, zwischen schneller Reaktion und tiefgehender Schlussfolgerung zu wählen, genau wie beim GLM-4.5 Sprachmodell.
Modellarchitektur
GLM-4.5V
- Basismodell: Basiert auf Zhipu AIs nächstem Flaggschiff-Text-Basismodell GLM-4.5-Air
- Parameterumfang: 106B Gesamtparameter, 12B aktive Parameter
- Leistung: Erreicht SOTA-Leistung (State-of-the-Art) unter Modellen gleicher Größe in 42 öffentlichen visuellen Sprach-Benchmarks
- Technische Merkmale:
- Unterstützt verschiedene Arten visueller Inhalte
- Visuelle Inferenzfähigkeiten im gesamten Spektrum
- Effizientes Hybridtraining
- Fokus auf praktische Anwendungsszenarien
GLM-4.1V-9B-Thinking
- Basismodell: Basiert auf dem GLM-4-9B-0414 Basismodell
- Kerntechnologie: Einführung eines Inferenzparadigmas unter Verwendung von RLCS (Reinforcement Learning mit Curriculum Sampling)
- Leistungsvorteile:
- Stärkste Leistung unter VLMs der 10B-Klasse
- Erreicht oder übertrifft Qwen-2.5-VL mit 72B Parametern in 18 Benchmark-Aufgaben
- Unterstützt 64k Kontextlänge
- Unterstützt beliebiges Seitenverhältnis und Bildauflösungen von bis zu 4k
- Zweisprachige (Chinesisch und Englisch) Open-Source-Version
Technische Innovation
Inferenzmechanismus
GLM-4.1V-9B-Thinking integriert den Chain-of-Thought (CoT)-Inferenzmechanismus, der Genauigkeit, Reichhaltigkeit und Interpretierbarkeit verbessert. Es übertrifft andere Modelle mit 10B Parametern in 23 von 28 Benchmark-Aufgaben.
Reinforcement Learning Training
Das Modell verwendet skalierbare Reinforcement-Learning-Technologien und verbessert die Modellfähigkeiten umfassend durch die RLCS-Methode, insbesondere bei Mathematik-, Code- und logischen Inferenzaufgaben.
Installation und Nutzung
Systemanforderungen
Geeignet für NVIDIA GPU, unterstützt Ascend NPU-Inferenz.
Abhängigkeiten installieren
Für SGLang und transformers:
pip install -r requirements.txt
Für vLLM:
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview
Inferenzbeispiele
Verwendung des vLLM-Dienstes
vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'
Verwendung des SGLang-Dienstes
python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0
Transformers Codebeispiel
from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch
MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://example.com/image.png"
},
{
"type": "text",
"text": "describe this image"
}
],
}
]
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
pretrained_model_name_or_path=MODEL_PATH,
torch_dtype="auto",
device_map="auto",
)
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
generated_ids[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=False
)
print(output_text)
Fine-Tuning-Unterstützung
Das Projekt unterstützt Fine-Tuning mit LLaMA-Factory. Beispiel für das Datensatzformat:
[
{
"messages": [
{
"content": "<image>Who are they?",
"role": "user"
},
{
"content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
"role": "assistant"
}
],
"images": [
"mllm_demo_data/1.jpg"
]
}
]
Anwendungsbeispiele
GUI-Agent
Das Projekt bietet Beispiele für GUI-Agenten, die Strategien zur Prompt-Erstellung und Ausgabeverarbeitung auf mobilen Geräten, PCs und im Web demonstrieren.
Desktop-Assistent
Eine handgefertigte Desktop-Assistenten-Anwendung wurde als Open Source veröffentlicht, die nach der Verbindung mit GLM-4.5V visuelle Informationen vom PC-Bildschirm über Screenshots oder Bildschirmaufnahmen erfassen kann.
VLM-Belohnungssystem
Das VLM-Belohnungssystem, das zum Training von GLM-4.1V-Thinking verwendet wurde, ist Open Source und kann lokal ausgeführt werden:
python examples/reward_system_demo.py
Leistung
Benchmark-Ergebnisse
- GLM-4.5V erreicht SOTA-Leistung unter Modellen gleicher Größe in 42 öffentlichen visuellen Sprach-Benchmarks
- GLM-4.1V-9B-Thinking übertrifft Modelle gleicher Parametergröße in 23 von 28 Benchmark-Aufgaben
- Erreicht oder übertrifft Qwen-2.5-VL-72B mit 72B Parametern in 18 Benchmark-Aufgaben
Optimierungen und Verbesserungen
Seit der Veröffentlichung von GLM-4.1V hat das Team viele von der Community gemeldete Probleme behoben. Bei GLM-4.5V wurden häufige Probleme wie wiederholtes Denken und Fehler im Ausgabeformat gemildert.
Community und Support
- Online-Erfahrung: chat.z.ai
- API-Schnittstelle: Z.ai API-Plattform
- Hugging Face: GLM-4.5V, GLM-4.1V-9B-Thinking
- Discord-Community: Diskussion beitreten
Das GLM-V-Projekt stellt einen wichtigen Fortschritt in der Open-Source-Multimodal-KI dar und bietet Forschern und Entwicklern leistungsstarke Werkzeuge für das visuelle Sprachverständnis und die Inferenz, wodurch die Entwicklung multimodaler Agenten und komplexer visueller Inferenzanwendungen vorangetrieben wird.