GLM-4.5V和GLM-4.1V系列:面向多元化多模態推理的開源視覺語言模型,通過強化學習提升視覺推理能力

Apache-2.0PythonGLM-Vzai-org 1.4k Last Updated: August 14, 2025

GLM-V 專案詳細介紹

專案概述

GLM-V 是智譜AI(Z.ai)開源的多模態視覺語言模型系列,包含 GLM-4.5V 和 GLM-4.1V 兩個主要模型。該專案旨在探索視覺語言模型在複雜推理任務中的技術前沿,透過強化學習技術顯著提升模型的多模態理解和推理能力。

GitHub 地址: https://github.com/zai-org/GLM-V

核心特性

🚀 主要能力

  • 圖像推理:場景理解、複雜多圖分析、空間識別
  • 影片理解:長影片分割和事件識別
  • GUI 任務:螢幕閱讀、圖示識別、桌面操作輔助
  • 複雜圖表和長文件解析:研究報告分析、資訊提取
  • 精確定位:視覺元素的精確定位能力

🧠 思維模式切換

模型引入了思維模式(Thinking Mode)開關,允許使用者在快速響應和深度推理之間平衡選擇,與 GLM-4.5 語言模型的工作方式相同。

模型架構

GLM-4.5V

  • 基礎模型:基於智譜AI下一代旗艦文本基礎模型 GLM-4.5-Air
  • 參數規模:106B 總參數,12B 活躍參數
  • 性能表現:在 42 個公開視覺語言基準測試中達到同等規模模型的 SOTA 性能
  • 技術特點
    • 支援多種視覺內容類型
    • 全光譜視覺推理能力
    • 高效混合訓練
    • 注重實際應用場景

GLM-4.1V-9B-Thinking

  • 基礎模型:基於 GLM-4-9B-0414 基礎模型
  • 核心技術:引入推理範式,使用 RLCS(帶課程採樣的強化學習)
  • 性能優勢
    • 10B 級別 VLM 中性能最強
    • 在 18 個基準任務中匹配或超越 72B 參數的 Qwen-2.5-VL
    • 支援 64k 上下文長度
    • 支援任意縱橫比和高達 4k 圖像解析度
    • 雙語(中英文)開源版本

技術創新

推理機制

GLM-4.1V-9B-Thinking 整合了思維鏈(Chain-of-Thought)推理機制,提升了準確性、豐富性和可解釋性。在 28 個基準任務中的 23 個任務上領先於 10B 參數規模的其他模型。

強化學習訓練

模型採用可擴展的強化學習技術,透過 RLCS 方法全面提升模型能力,特別是在數學、程式碼和邏輯推理任務上表現突出。

安裝和使用

環境要求

適用於 NVIDIA GPU,支援 Ascend NPU 推理。

安裝依賴

對於 SGLang 和 transformers:

pip install -r requirements.txt

對於 vLLM:

pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview

推理範例

使用 vLLM 服務

vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'

使用 SGLang 服務

python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0

Transformers 程式碼範例

from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch

MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://example.com/image.png"
            },
            {
                "type": "text",
                "text": "describe this image"
            }
        ],
    }
]

processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype="auto",
    device_map="auto",
)

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
    generated_ids[0][inputs["input_ids"].shape[1]:], 
    skip_special_tokens=False
)
print(output_text)

微調支援

專案支援使用 LLaMA-Factory 進行微調。資料集格式範例:

[
    {
        "messages": [
            {
                "content": "<image>Who are they?",
                "role": "user"
            },
            {
                "content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
                "role": "assistant"
            }
        ],
        "images": [
            "mllm_demo_data/1.jpg"
        ]
    }
]

應用範例

GUI 智能體

專案提供了 GUI 智能體的範例,展示了在行動端、PC 端和 Web 端的提示建構和輸出處理策略。

桌面助手

開源了一個手工製作的桌面助手應用,連接到 GLM-4.5V 後可以透過螢幕截圖或螢幕錄製捕捉 PC 螢幕的視覺資訊。

VLM 獎勵系統

開源了用於訓練 GLM-4.1V-Thinking 的 VLM 獎勵系統,可本地運行:

python examples/reward_system_demo.py

性能表現

基準測試成果

  • GLM-4.5V 在 42 個公開視覺語言基準測試中達到同規模模型 SOTA 性能
  • GLM-4.1V-9B-Thinking 在 28 個基準任務中的 23 個領先於同等參數規模模型
  • 在 18 個基準任務中匹配或超越 72B 參數的 Qwen-2.5-VL-72B

優化改進

從 GLM-4.1V 發布以來,團隊解決了許多社群回饋的問題。在 GLM-4.5V 中,重複思考和輸出格式錯誤等常見問題得到了緩解。

社群和支援

GLM-V 專案代表了開源多模態 AI 的重要進展,為研究者和開發者提供了強大的視覺語言理解和推理工具,推動了多模態智能體和複雜視覺推理應用的發展。

Star History Chart