zai-org/GLM-VView GitHub Homepage for Latest Official Releases

GLM-4.5V和GLM-4.1V系列：面向多元化多模態推理的開源視覺語言模型，通過強化學習提升視覺推理能力

Apache-2.0PythonGLM-Vzai-org 1.7k Last Updated: September 22, 2025

GLM-V 專案詳細介紹

專案概述

GLM-V 是智譜AI（Z.ai）開源的多模態視覺語言模型系列，包含 GLM-4.5V 和 GLM-4.1V 兩個主要模型。該專案旨在探索視覺語言模型在複雜推理任務中的技術前沿，透過強化學習技術顯著提升模型的多模態理解和推理能力。

GitHub 地址: https://github.com/zai-org/GLM-V

核心特性

🚀 主要能力

圖像推理：場景理解、複雜多圖分析、空間識別
影片理解：長影片分割和事件識別
GUI 任務：螢幕閱讀、圖示識別、桌面操作輔助
複雜圖表和長文件解析：研究報告分析、資訊提取
精確定位：視覺元素的精確定位能力

🧠 思維模式切換

模型引入了思維模式（Thinking Mode）開關，允許使用者在快速響應和深度推理之間平衡選擇，與 GLM-4.5 語言模型的工作方式相同。

模型架構

GLM-4.5V

基礎模型：基於智譜AI下一代旗艦文本基礎模型 GLM-4.5-Air
參數規模：106B 總參數，12B 活躍參數
性能表現：在 42 個公開視覺語言基準測試中達到同等規模模型的 SOTA 性能
技術特點：
- 支援多種視覺內容類型
- 全光譜視覺推理能力
- 高效混合訓練
- 注重實際應用場景

GLM-4.1V-9B-Thinking

基礎模型：基於 GLM-4-9B-0414 基礎模型
核心技術：引入推理範式，使用 RLCS（帶課程採樣的強化學習）
性能優勢：
- 10B 級別 VLM 中性能最強
- 在 18 個基準任務中匹配或超越 72B 參數的 Qwen-2.5-VL
- 支援 64k 上下文長度
- 支援任意縱橫比和高達 4k 圖像解析度
- 雙語（中英文）開源版本

技術創新

推理機制

GLM-4.1V-9B-Thinking 整合了思維鏈（Chain-of-Thought）推理機制，提升了準確性、豐富性和可解釋性。在 28 個基準任務中的 23 個任務上領先於 10B 參數規模的其他模型。

強化學習訓練

模型採用可擴展的強化學習技術，透過 RLCS 方法全面提升模型能力，特別是在數學、程式碼和邏輯推理任務上表現突出。

安裝和使用

環境要求

適用於 NVIDIA GPU，支援 Ascend NPU 推理。

安裝依賴

對於 SGLang 和 transformers：

pip install -r requirements.txt

對於 vLLM：

pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview

推理範例

使用 vLLM 服務

vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'

使用 SGLang 服務

python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0

Transformers 程式碼範例

from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch

MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://example.com/image.png"
            },
            {
                "type": "text",
                "text": "describe this image"
            }
        ],
    }
]

processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype="auto",
    device_map="auto",
)

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
    generated_ids[0][inputs["input_ids"].shape[1]:], 
    skip_special_tokens=False
)
print(output_text)

微調支援

專案支援使用 LLaMA-Factory 進行微調。資料集格式範例：

[
    {
        "messages": [
            {
                "content": "<image>Who are they?",
                "role": "user"
            },
            {
                "content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
                "role": "assistant"
            }
        ],
        "images": [
            "mllm_demo_data/1.jpg"
        ]
    }
]

應用範例

GUI 智能體

專案提供了 GUI 智能體的範例，展示了在行動端、PC 端和 Web 端的提示建構和輸出處理策略。

桌面助手

開源了一個手工製作的桌面助手應用，連接到 GLM-4.5V 後可以透過螢幕截圖或螢幕錄製捕捉 PC 螢幕的視覺資訊。

VLM 獎勵系統

開源了用於訓練 GLM-4.1V-Thinking 的 VLM 獎勵系統，可本地運行：

python examples/reward_system_demo.py

性能表現

基準測試成果

GLM-4.5V 在 42 個公開視覺語言基準測試中達到同規模模型 SOTA 性能
GLM-4.1V-9B-Thinking 在 28 個基準任務中的 23 個領先於同等參數規模模型
在 18 個基準任務中匹配或超越 72B 參數的 Qwen-2.5-VL-72B

優化改進

從 GLM-4.1V 發布以來，團隊解決了許多社群回饋的問題。在 GLM-4.5V 中，重複思考和輸出格式錯誤等常見問題得到了緩解。

社群和支援

線上體驗：chat.z.ai
API 介面：Z.ai API 平台
Hugging Face：GLM-4.5V、GLM-4.1V-9B-Thinking
Discord 社群：加入討論

GLM-V 專案代表了開源多模態 AI 的重要進展，為研究者和開發者提供了強大的視覺語言理解和推理工具，推動了多模態智能體和複雜視覺推理應用的發展。