GLM-4.5V和GLM-4.1V系列:面向多元化多模态推理的开源视觉语言模型,通过强化学习提升视觉推理能力

Apache-2.0PythonGLM-Vzai-org 1.4k Last Updated: August 14, 2025

GLM-V 项目详细介绍

项目概述

GLM-V是智谱AI(Z.ai)开源的多模态视觉语言模型系列,包含GLM-4.5V和GLM-4.1V两个主要模型。该项目旨在探索视觉语言模型在复杂推理任务中的技术前沿,通过强化学习技术显著提升模型的多模态理解和推理能力。

GitHub地址: https://github.com/zai-org/GLM-V

核心特性

🚀 主要能力

  • 图像推理:场景理解、复杂多图分析、空间识别
  • 视频理解:长视频分割和事件识别
  • GUI任务:屏幕阅读、图标识别、桌面操作辅助
  • 复杂图表和长文档解析:研究报告分析、信息提取
  • 精确定位:视觉元素的精确定位能力

🧠 思维模式切换

模型引入了思维模式(Thinking Mode)开关,允许用户在快速响应和深度推理之间平衡选择,与GLM-4.5语言模型的工作方式相同。

模型架构

GLM-4.5V

  • 基础模型:基于智谱AI下一代旗舰文本基础模型GLM-4.5-Air
  • 参数规模:106B总参数,12B活跃参数
  • 性能表现:在42个公开视觉语言基准测试中达到同等规模模型的SOTA性能
  • 技术特点
    • 支持多种视觉内容类型
    • 全光谱视觉推理能力
    • 高效混合训练
    • 注重实际应用场景

GLM-4.1V-9B-Thinking

  • 基础模型:基于GLM-4-9B-0414基础模型
  • 核心技术:引入推理范式,使用RLCS(带课程采样的强化学习)
  • 性能优势
    • 10B级别VLM中性能最强
    • 在18个基准任务中匹配或超越72B参数的Qwen-2.5-VL
    • 支持64k上下文长度
    • 支持任意纵横比和高达4k图像分辨率
    • 双语(中英文)开源版本

技术创新

推理机制

GLM-4.1V-9B-Thinking集成了思维链(Chain-of-Thought)推理机制,提升了准确性、丰富性和可解释性。在28个基准任务中的23个任务上领先于10B参数规模的其他模型。

强化学习训练

模型采用可扩展的强化学习技术,通过RLCS方法全面提升模型能力,特别是在数学、代码和逻辑推理任务上表现突出。

安装和使用

环境要求

适用于NVIDIA GPU,支持Ascend NPU推理。

安装依赖

对于SGLang和transformers:

pip install -r requirements.txt

对于vLLM:

pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview

推理示例

使用vLLM服务

vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'

使用SGLang服务

python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0

Transformers代码示例

from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch

MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://example.com/image.png"
            },
            {
                "type": "text",
                "text": "describe this image"
            }
        ],
    }
]

processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype="auto",
    device_map="auto",
)

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
    generated_ids[0][inputs["input_ids"].shape[1]:], 
    skip_special_tokens=False
)
print(output_text)

微调支持

项目支持使用LLaMA-Factory进行微调。数据集格式示例:

[
    {
        "messages": [
            {
                "content": "<image>Who are they?",
                "role": "user"
            },
            {
                "content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
                "role": "assistant"
            }
        ],
        "images": [
            "mllm_demo_data/1.jpg"
        ]
    }
]

应用示例

GUI智能体

项目提供了GUI智能体的示例,展示了在移动端、PC端和Web端的提示构建和输出处理策略。

桌面助手

开源了一个手工制作的桌面助手应用,连接到GLM-4.5V后可以通过屏幕截图或屏幕录制捕获PC屏幕的视觉信息。

VLM奖励系统

开源了用于训练GLM-4.1V-Thinking的VLM奖励系统,可本地运行:

python examples/reward_system_demo.py

性能表现

基准测试成果

  • GLM-4.5V在42个公开视觉语言基准测试中达到同规模模型SOTA性能
  • GLM-4.1V-9B-Thinking在28个基准任务中的23个领先于同等参数规模模型
  • 在18个基准任务中匹配或超越72B参数的Qwen-2.5-VL-72B

优化改进

从GLM-4.1V发布以来,团队解决了许多社区反馈的问题。在GLM-4.5V中,重复思考和输出格式错误等常见问题得到了缓解。

社区和支持

GLM-V项目代表了开源多模态AI的重要进展,为研究者和开发者提供了强大的视觉语言理解和推理工具,推动了多模态智能体和复杂视觉推理应用的发展。

Star History Chart