zai-org/GLM-VView GitHub Homepage for Latest Official Releases
GLM-4.5V和GLM-4.1V系列:面向多元化多模态推理的开源视觉语言模型,通过强化学习提升视觉推理能力
Apache-2.0PythonGLM-Vzai-org 1.4k Last Updated: August 14, 2025
GLM-V 项目详细介绍
项目概述
GLM-V是智谱AI(Z.ai)开源的多模态视觉语言模型系列,包含GLM-4.5V和GLM-4.1V两个主要模型。该项目旨在探索视觉语言模型在复杂推理任务中的技术前沿,通过强化学习技术显著提升模型的多模态理解和推理能力。
GitHub地址: https://github.com/zai-org/GLM-V
核心特性
🚀 主要能力
- 图像推理:场景理解、复杂多图分析、空间识别
- 视频理解:长视频分割和事件识别
- GUI任务:屏幕阅读、图标识别、桌面操作辅助
- 复杂图表和长文档解析:研究报告分析、信息提取
- 精确定位:视觉元素的精确定位能力
🧠 思维模式切换
模型引入了思维模式(Thinking Mode)开关,允许用户在快速响应和深度推理之间平衡选择,与GLM-4.5语言模型的工作方式相同。
模型架构
GLM-4.5V
- 基础模型:基于智谱AI下一代旗舰文本基础模型GLM-4.5-Air
- 参数规模:106B总参数,12B活跃参数
- 性能表现:在42个公开视觉语言基准测试中达到同等规模模型的SOTA性能
- 技术特点:
- 支持多种视觉内容类型
- 全光谱视觉推理能力
- 高效混合训练
- 注重实际应用场景
GLM-4.1V-9B-Thinking
- 基础模型:基于GLM-4-9B-0414基础模型
- 核心技术:引入推理范式,使用RLCS(带课程采样的强化学习)
- 性能优势:
- 10B级别VLM中性能最强
- 在18个基准任务中匹配或超越72B参数的Qwen-2.5-VL
- 支持64k上下文长度
- 支持任意纵横比和高达4k图像分辨率
- 双语(中英文)开源版本
技术创新
推理机制
GLM-4.1V-9B-Thinking集成了思维链(Chain-of-Thought)推理机制,提升了准确性、丰富性和可解释性。在28个基准任务中的23个任务上领先于10B参数规模的其他模型。
强化学习训练
模型采用可扩展的强化学习技术,通过RLCS方法全面提升模型能力,特别是在数学、代码和逻辑推理任务上表现突出。
安装和使用
环境要求
适用于NVIDIA GPU,支持Ascend NPU推理。
安装依赖
对于SGLang和transformers:
pip install -r requirements.txt
对于vLLM:
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview
推理示例
使用vLLM服务
vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'
使用SGLang服务
python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0
Transformers代码示例
from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch
MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://example.com/image.png"
},
{
"type": "text",
"text": "describe this image"
}
],
}
]
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
pretrained_model_name_or_path=MODEL_PATH,
torch_dtype="auto",
device_map="auto",
)
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
generated_ids[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=False
)
print(output_text)
微调支持
项目支持使用LLaMA-Factory进行微调。数据集格式示例:
[
{
"messages": [
{
"content": "<image>Who are they?",
"role": "user"
},
{
"content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
"role": "assistant"
}
],
"images": [
"mllm_demo_data/1.jpg"
]
}
]
应用示例
GUI智能体
项目提供了GUI智能体的示例,展示了在移动端、PC端和Web端的提示构建和输出处理策略。
桌面助手
开源了一个手工制作的桌面助手应用,连接到GLM-4.5V后可以通过屏幕截图或屏幕录制捕获PC屏幕的视觉信息。
VLM奖励系统
开源了用于训练GLM-4.1V-Thinking的VLM奖励系统,可本地运行:
python examples/reward_system_demo.py
性能表现
基准测试成果
- GLM-4.5V在42个公开视觉语言基准测试中达到同规模模型SOTA性能
- GLM-4.1V-9B-Thinking在28个基准任务中的23个领先于同等参数规模模型
- 在18个基准任务中匹配或超越72B参数的Qwen-2.5-VL-72B
优化改进
从GLM-4.1V发布以来,团队解决了许多社区反馈的问题。在GLM-4.5V中,重复思考和输出格式错误等常见问题得到了缓解。
社区和支持
- 在线体验:chat.z.ai
- API接口:Z.ai API平台
- Hugging Face:GLM-4.5V、GLM-4.1V-9B-Thinking
- Discord社区:加入讨论
GLM-V项目代表了开源多模态AI的重要进展,为研究者和开发者提供了强大的视觉语言理解和推理工具,推动了多模态智能体和复杂视觉推理应用的发展。