GLM-4.5V und GLM-4.1V Serie: Open-Source-Modelle für visuelle Sprache zur diversifizierten multimodalen Inferenz, die die visuelle Inferenzfähigkeit durch Reinforcement Learning verbessern.

Apache-2.0PythonGLM-Vzai-org 1.4k Last Updated: August 14, 2025

GLM-V Projekt detaillierte Vorstellung

Projektübersicht

GLM-V ist eine Open-Source-Serie multimodaler visueller Sprachmodelle von Zhipu AI (Z.ai), die die Hauptmodelle GLM-4.5V und GLM-4.1V umfasst. Dieses Projekt zielt darauf ab, die technologischen Grenzen visueller Sprachmodelle bei komplexen Inferenzaufgaben zu erforschen und die multimodalen Verständnis- und Inferenzfähigkeiten des Modells durch Reinforcement Learning-Technologien erheblich zu verbessern.

GitHub-Adresse: https://github.com/zai-org/GLM-V

Kernmerkmale

🚀 Hauptfähigkeiten

  • Bildinferenz: Szenenverständnis, komplexe Multi-Bild-Analyse, räumliche Erkennung
  • Videoverständnis: Segmentierung langer Videos und Ereigniserkennung
  • GUI-Aufgaben: Bildschirmlesen, Symbolerkennung, Unterstützung bei Desktop-Operationen
  • Analyse komplexer Diagramme und langer Dokumente: Analyse von Forschungsberichten, Informationsgewinnung
  • Präzise Lokalisierung: Fähigkeit zur präzisen Lokalisierung visueller Elemente

🧠 Umschaltung des Denkmodus

Das Modell führt einen Schalter für den Denkmodus (Thinking Mode) ein, der es Benutzern ermöglicht, zwischen schneller Reaktion und tiefgehender Schlussfolgerung zu wählen, genau wie beim GLM-4.5 Sprachmodell.

Modellarchitektur

GLM-4.5V

  • Basismodell: Basiert auf Zhipu AIs nächstem Flaggschiff-Text-Basismodell GLM-4.5-Air
  • Parameterumfang: 106B Gesamtparameter, 12B aktive Parameter
  • Leistung: Erreicht SOTA-Leistung (State-of-the-Art) unter Modellen gleicher Größe in 42 öffentlichen visuellen Sprach-Benchmarks
  • Technische Merkmale:
    • Unterstützt verschiedene Arten visueller Inhalte
    • Visuelle Inferenzfähigkeiten im gesamten Spektrum
    • Effizientes Hybridtraining
    • Fokus auf praktische Anwendungsszenarien

GLM-4.1V-9B-Thinking

  • Basismodell: Basiert auf dem GLM-4-9B-0414 Basismodell
  • Kerntechnologie: Einführung eines Inferenzparadigmas unter Verwendung von RLCS (Reinforcement Learning mit Curriculum Sampling)
  • Leistungsvorteile:
    • Stärkste Leistung unter VLMs der 10B-Klasse
    • Erreicht oder übertrifft Qwen-2.5-VL mit 72B Parametern in 18 Benchmark-Aufgaben
    • Unterstützt 64k Kontextlänge
    • Unterstützt beliebiges Seitenverhältnis und Bildauflösungen von bis zu 4k
    • Zweisprachige (Chinesisch und Englisch) Open-Source-Version

Technische Innovation

Inferenzmechanismus

GLM-4.1V-9B-Thinking integriert den Chain-of-Thought (CoT)-Inferenzmechanismus, der Genauigkeit, Reichhaltigkeit und Interpretierbarkeit verbessert. Es übertrifft andere Modelle mit 10B Parametern in 23 von 28 Benchmark-Aufgaben.

Reinforcement Learning Training

Das Modell verwendet skalierbare Reinforcement-Learning-Technologien und verbessert die Modellfähigkeiten umfassend durch die RLCS-Methode, insbesondere bei Mathematik-, Code- und logischen Inferenzaufgaben.

Installation und Nutzung

Systemanforderungen

Geeignet für NVIDIA GPU, unterstützt Ascend NPU-Inferenz.

Abhängigkeiten installieren

Für SGLang und transformers:

pip install -r requirements.txt

Für vLLM:

pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview

Inferenzbeispiele

Verwendung des vLLM-Dienstes

vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'

Verwendung des SGLang-Dienstes

python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0

Transformers Codebeispiel

from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch

MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://example.com/image.png"
            },
            {
                "type": "text",
                "text": "describe this image"
            }
        ],
    }
]

processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype="auto",
    device_map="auto",
)

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
    generated_ids[0][inputs["input_ids"].shape[1]:],
    skip_special_tokens=False
)
print(output_text)

Fine-Tuning-Unterstützung

Das Projekt unterstützt Fine-Tuning mit LLaMA-Factory. Beispiel für das Datensatzformat:

[
    {
        "messages": [
            {
                "content": "<image>Who are they?",
                "role": "user"
            },
            {
                "content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
                "role": "assistant"
            }
        ],
        "images": [
            "mllm_demo_data/1.jpg"
        ]
    }
]

Anwendungsbeispiele

GUI-Agent

Das Projekt bietet Beispiele für GUI-Agenten, die Strategien zur Prompt-Erstellung und Ausgabeverarbeitung auf mobilen Geräten, PCs und im Web demonstrieren.

Desktop-Assistent

Eine handgefertigte Desktop-Assistenten-Anwendung wurde als Open Source veröffentlicht, die nach der Verbindung mit GLM-4.5V visuelle Informationen vom PC-Bildschirm über Screenshots oder Bildschirmaufnahmen erfassen kann.

VLM-Belohnungssystem

Das VLM-Belohnungssystem, das zum Training von GLM-4.1V-Thinking verwendet wurde, ist Open Source und kann lokal ausgeführt werden:

python examples/reward_system_demo.py

Leistung

Benchmark-Ergebnisse

  • GLM-4.5V erreicht SOTA-Leistung unter Modellen gleicher Größe in 42 öffentlichen visuellen Sprach-Benchmarks
  • GLM-4.1V-9B-Thinking übertrifft Modelle gleicher Parametergröße in 23 von 28 Benchmark-Aufgaben
  • Erreicht oder übertrifft Qwen-2.5-VL-72B mit 72B Parametern in 18 Benchmark-Aufgaben

Optimierungen und Verbesserungen

Seit der Veröffentlichung von GLM-4.1V hat das Team viele von der Community gemeldete Probleme behoben. Bei GLM-4.5V wurden häufige Probleme wie wiederholtes Denken und Fehler im Ausgabeformat gemildert.

Community und Support

Das GLM-V-Projekt stellt einen wichtigen Fortschritt in der Open-Source-Multimodal-KI dar und bietet Forschern und Entwicklern leistungsstarke Werkzeuge für das visuelle Sprachverständnis und die Inferenz, wodurch die Entwicklung multimodaler Agenten und komplexer visueller Inferenzanwendungen vorangetrieben wird.

Star History Chart