zai-org/GLM-VView GitHub Homepage for Latest Official Releases

GLM-4.5V和GLM-4.1V系列：面向多元化多模态推理的开源视觉语言模型，通过强化学习提升视觉推理能力

Apache-2.0PythonGLM-Vzai-org 1.7k Last Updated: September 22, 2025

GLM-V 项目详细介绍

项目概述

GLM-V是智谱AI（Z.ai）开源的多模态视觉语言模型系列，包含GLM-4.5V和GLM-4.1V两个主要模型。该项目旨在探索视觉语言模型在复杂推理任务中的技术前沿，通过强化学习技术显著提升模型的多模态理解和推理能力。

GitHub地址: https://github.com/zai-org/GLM-V

核心特性

🚀 主要能力

图像推理：场景理解、复杂多图分析、空间识别
视频理解：长视频分割和事件识别
GUI任务：屏幕阅读、图标识别、桌面操作辅助
复杂图表和长文档解析：研究报告分析、信息提取
精确定位：视觉元素的精确定位能力

🧠 思维模式切换

模型引入了思维模式（Thinking Mode）开关，允许用户在快速响应和深度推理之间平衡选择，与GLM-4.5语言模型的工作方式相同。

模型架构

GLM-4.5V

基础模型：基于智谱AI下一代旗舰文本基础模型GLM-4.5-Air
参数规模：106B总参数，12B活跃参数
性能表现：在42个公开视觉语言基准测试中达到同等规模模型的SOTA性能
技术特点：
- 支持多种视觉内容类型
- 全光谱视觉推理能力
- 高效混合训练
- 注重实际应用场景

GLM-4.1V-9B-Thinking

基础模型：基于GLM-4-9B-0414基础模型
核心技术：引入推理范式，使用RLCS（带课程采样的强化学习）
性能优势：
- 10B级别VLM中性能最强
- 在18个基准任务中匹配或超越72B参数的Qwen-2.5-VL
- 支持64k上下文长度
- 支持任意纵横比和高达4k图像分辨率
- 双语（中英文）开源版本

技术创新

推理机制

GLM-4.1V-9B-Thinking集成了思维链（Chain-of-Thought）推理机制，提升了准确性、丰富性和可解释性。在28个基准任务中的23个任务上领先于10B参数规模的其他模型。

强化学习训练

模型采用可扩展的强化学习技术，通过RLCS方法全面提升模型能力，特别是在数学、代码和逻辑推理任务上表现突出。

安装和使用

环境要求

适用于NVIDIA GPU，支持Ascend NPU推理。

安装依赖

对于SGLang和transformers：

pip install -r requirements.txt

对于vLLM：

pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview

推理示例

使用vLLM服务

vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'

使用SGLang服务

python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0

Transformers代码示例

from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch

MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://example.com/image.png"
            },
            {
                "type": "text",
                "text": "describe this image"
            }
        ],
    }
]

processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype="auto",
    device_map="auto",
)

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
    generated_ids[0][inputs["input_ids"].shape[1]:], 
    skip_special_tokens=False
)
print(output_text)

微调支持

项目支持使用LLaMA-Factory进行微调。数据集格式示例：

[
    {
        "messages": [
            {
                "content": "<image>Who are they?",
                "role": "user"
            },
            {
                "content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
                "role": "assistant"
            }
        ],
        "images": [
            "mllm_demo_data/1.jpg"
        ]
    }
]

应用示例

GUI智能体

项目提供了GUI智能体的示例，展示了在移动端、PC端和Web端的提示构建和输出处理策略。

桌面助手

开源了一个手工制作的桌面助手应用，连接到GLM-4.5V后可以通过屏幕截图或屏幕录制捕获PC屏幕的视觉信息。

VLM奖励系统

开源了用于训练GLM-4.1V-Thinking的VLM奖励系统，可本地运行：

python examples/reward_system_demo.py

性能表现

基准测试成果

GLM-4.5V在42个公开视觉语言基准测试中达到同规模模型SOTA性能
GLM-4.1V-9B-Thinking在28个基准任务中的23个领先于同等参数规模模型
在18个基准任务中匹配或超越72B参数的Qwen-2.5-VL-72B

优化改进

从GLM-4.1V发布以来，团队解决了许多社区反馈的问题。在GLM-4.5V中，重复思考和输出格式错误等常见问题得到了缓解。

社区和支持

在线体验：chat.z.ai
API接口：Z.ai API平台
Hugging Face：GLM-4.5V、GLM-4.1V-9B-Thinking
Discord社区：加入讨论

GLM-V项目代表了开源多模态AI的重要进展，为研究者和开发者提供了强大的视觉语言理解和推理工具，推动了多模态智能体和复杂视觉推理应用的发展。