GLM-4.5V和GLM-4.1V系列:面向多元化多模態推理的開源視覺語言模型,通過強化學習提升視覺推理能力
GLM-V 專案詳細介紹
專案概述
GLM-V 是智譜AI(Z.ai)開源的多模態視覺語言模型系列,包含 GLM-4.5V 和 GLM-4.1V 兩個主要模型。該專案旨在探索視覺語言模型在複雜推理任務中的技術前沿,透過強化學習技術顯著提升模型的多模態理解和推理能力。
GitHub 地址: https://github.com/zai-org/GLM-V
核心特性
🚀 主要能力
- 圖像推理:場景理解、複雜多圖分析、空間識別
- 影片理解:長影片分割和事件識別
- GUI 任務:螢幕閱讀、圖示識別、桌面操作輔助
- 複雜圖表和長文件解析:研究報告分析、資訊提取
- 精確定位:視覺元素的精確定位能力
🧠 思維模式切換
模型引入了思維模式(Thinking Mode)開關,允許使用者在快速響應和深度推理之間平衡選擇,與 GLM-4.5 語言模型的工作方式相同。
模型架構
GLM-4.5V
- 基礎模型:基於智譜AI下一代旗艦文本基礎模型 GLM-4.5-Air
- 參數規模:106B 總參數,12B 活躍參數
- 性能表現:在 42 個公開視覺語言基準測試中達到同等規模模型的 SOTA 性能
- 技術特點:
- 支援多種視覺內容類型
- 全光譜視覺推理能力
- 高效混合訓練
- 注重實際應用場景
GLM-4.1V-9B-Thinking
- 基礎模型:基於 GLM-4-9B-0414 基礎模型
- 核心技術:引入推理範式,使用 RLCS(帶課程採樣的強化學習)
- 性能優勢:
- 10B 級別 VLM 中性能最強
- 在 18 個基準任務中匹配或超越 72B 參數的 Qwen-2.5-VL
- 支援 64k 上下文長度
- 支援任意縱橫比和高達 4k 圖像解析度
- 雙語(中英文)開源版本
技術創新
推理機制
GLM-4.1V-9B-Thinking 整合了思維鏈(Chain-of-Thought)推理機制,提升了準確性、豐富性和可解釋性。在 28 個基準任務中的 23 個任務上領先於 10B 參數規模的其他模型。
強化學習訓練
模型採用可擴展的強化學習技術,透過 RLCS 方法全面提升模型能力,特別是在數學、程式碼和邏輯推理任務上表現突出。
安裝和使用
環境要求
適用於 NVIDIA GPU,支援 Ascend NPU 推理。
安裝依賴
對於 SGLang 和 transformers:
pip install -r requirements.txt
對於 vLLM:
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview
推理範例
使用 vLLM 服務
vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'
使用 SGLang 服務
python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0
Transformers 程式碼範例
from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch
MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://example.com/image.png"
},
{
"type": "text",
"text": "describe this image"
}
],
}
]
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
pretrained_model_name_or_path=MODEL_PATH,
torch_dtype="auto",
device_map="auto",
)
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
generated_ids[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=False
)
print(output_text)
微調支援
專案支援使用 LLaMA-Factory 進行微調。資料集格式範例:
[
{
"messages": [
{
"content": "<image>Who are they?",
"role": "user"
},
{
"content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
"role": "assistant"
}
],
"images": [
"mllm_demo_data/1.jpg"
]
}
]
應用範例
GUI 智能體
專案提供了 GUI 智能體的範例,展示了在行動端、PC 端和 Web 端的提示建構和輸出處理策略。
桌面助手
開源了一個手工製作的桌面助手應用,連接到 GLM-4.5V 後可以透過螢幕截圖或螢幕錄製捕捉 PC 螢幕的視覺資訊。
VLM 獎勵系統
開源了用於訓練 GLM-4.1V-Thinking 的 VLM 獎勵系統,可本地運行:
python examples/reward_system_demo.py
性能表現
基準測試成果
- GLM-4.5V 在 42 個公開視覺語言基準測試中達到同規模模型 SOTA 性能
- GLM-4.1V-9B-Thinking 在 28 個基準任務中的 23 個領先於同等參數規模模型
- 在 18 個基準任務中匹配或超越 72B 參數的 Qwen-2.5-VL-72B
優化改進
從 GLM-4.1V 發布以來,團隊解決了許多社群回饋的問題。在 GLM-4.5V 中,重複思考和輸出格式錯誤等常見問題得到了緩解。
社群和支援
- 線上體驗:chat.z.ai
- API 介面:Z.ai API 平台
- Hugging Face:GLM-4.5V、GLM-4.1V-9B-Thinking
- Discord 社群:加入討論
GLM-V 專案代表了開源多模態 AI 的重要進展,為研究者和開發者提供了強大的視覺語言理解和推理工具,推動了多模態智能體和複雜視覺推理應用的發展。