zai-org/GLM-VView GitHub Homepage for Latest Official Releases

Series GLM-4.5V y GLM-4.1V: Modelos de lenguaje visual de código abierto orientados al razonamiento multimodal diversificado, que mejoran la capacidad de razonamiento visual a través del aprendizaje por refuerzo.

Apache-2.0PythonGLM-Vzai-org 1.7k Last Updated: September 22, 2025

Descripción Detallada del Proyecto GLM-V

Resumen del Proyecto

GLM-V es una serie de modelos de lenguaje visual multimodal de código abierto de Zhipu AI (Z.ai), que incluye los dos modelos principales GLM-4.5V y GLM-4.1V. Este proyecto tiene como objetivo explorar la vanguardia tecnológica de los modelos de lenguaje visual en tareas de razonamiento complejas, mejorando significativamente la comprensión multimodal y las capacidades de razonamiento del modelo a través de técnicas de aprendizaje por refuerzo.

Dirección de GitHub: https://github.com/zai-org/GLM-V

Características Principales

🚀 Capacidades Clave

Razonamiento de Imágenes: comprensión de escenas, análisis complejo de múltiples imágenes, reconocimiento espacial
Comprensión de Video: segmentación de videos largos y reconocimiento de eventos
Tareas de GUI: lectura de pantalla, reconocimiento de iconos, asistencia en operaciones de escritorio
Análisis de Gráficos Complejos y Documentos Largos: análisis de informes de investigación, extracción de información
Localización Precisa: capacidad de localización precisa de elementos visuales

🧠 Cambio de Modo de Pensamiento

El modelo introduce un interruptor de Modo de Pensamiento (Thinking Mode), que permite a los usuarios equilibrar la elección entre respuesta rápida y razonamiento profundo, funcionando de la misma manera que el modelo de lenguaje GLM-4.5.

Arquitectura del Modelo

GLM-4.5V

Modelo Base: Basado en el modelo base de texto insignia de próxima generación de Zhipu AI, GLM-4.5-Air
Escala de Parámetros: 106B parámetros totales, 12B parámetros activos
Rendimiento: Alcanza el rendimiento SOTA para modelos de escala comparable en 42 pruebas de referencia públicas de lenguaje visual
Características Técnicas:
- Soporta múltiples tipos de contenido visual
- Capacidad de razonamiento visual de espectro completo
- Entrenamiento híbrido eficiente
- Enfocado en escenarios de aplicación práctica

GLM-4.1V-9B-Thinking

Modelo Base: Basado en el modelo base GLM-4-9B-0414
Tecnología Central: Introduce un paradigma de razonamiento, utilizando RLCS (Aprendizaje por Refuerzo con Muestreo Curricular)
Ventajas de Rendimiento:
- El VLM más potente en la categoría de 10B
- Iguala o supera a Qwen-2.5-VL de 72B parámetros en 18 tareas de referencia
- Soporta una longitud de contexto de 64k
- Soporta cualquier relación de aspecto y resoluciones de imagen de hasta 4k
- Versión de código abierto bilingüe (chino e inglés)

Innovaciones Técnicas

Mecanismo de Razonamiento

GLM-4.1V-9B-Thinking integra el mecanismo de razonamiento de Cadena de Pensamiento (Chain-of-Thought), mejorando la precisión, riqueza y explicabilidad. Supera a otros modelos de 10B parámetros en 23 de 28 tareas de referencia.

Entrenamiento por Aprendizaje por Refuerzo

El modelo utiliza una técnica de aprendizaje por refuerzo escalable, mejorando integralmente las capacidades del modelo a través del método RLCS, destacando especialmente en tareas de matemáticas, código y razonamiento lógico.

Instalación y Uso

Requisitos del Entorno

Adecuado para GPU NVIDIA, soporta inferencia en NPU Ascend.

Instalar Dependencias

Para SGLang y transformers:

pip install -r requirements.txt

Para vLLM:

pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview

Ejemplos de Inferencia

Usando el servicio vLLM

vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'

Usando el servicio SGLang

python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0

Ejemplo de código con Transformers

from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch

MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://example.com/image.png"
            },
            {
                "type": "text",
                "text": "describe this image"
            }
        ],
    }
]

processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype="auto",
    device_map="auto",
)

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
    generated_ids[0][inputs["input_ids"].shape[1]:], 
    skip_special_tokens=False
)
print(output_text)

Soporte para Ajuste Fino (Fine-tuning)

El proyecto soporta el ajuste fino utilizando LLaMA-Factory. Ejemplo de formato de conjunto de datos:

[
    {
        "messages": [
            {
                "content": "<image>Who are they?",
                "role": "user"
            },
            {
                "content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
                "role": "assistant"
            }
        ],
        "images": [
            "mllm_demo_data/1.jpg"
        ]
    }
]

Ejemplos de Aplicación

Agente GUI

El proyecto proporciona ejemplos de agentes GUI, mostrando estrategias de construcción de prompts y procesamiento de salida en dispositivos móviles, PC y web.

Asistente de Escritorio

Se ha lanzado una aplicación de asistente de escritorio hecha a mano de código abierto, que, al conectarse a GLM-4.5V, puede capturar información visual de la pantalla del PC mediante capturas de pantalla o grabaciones de pantalla.

Sistema de Recompensa VLM

Se ha lanzado el sistema de recompensa VLM de código abierto utilizado para entrenar GLM-4.1V-Thinking, que se puede ejecutar localmente:

python examples/reward_system_demo.py

Rendimiento

Logros en Pruebas de Referencia

GLM-4.5V alcanza el rendimiento SOTA para modelos de escala comparable en 42 pruebas de referencia públicas de lenguaje visual.
GLM-4.1V-9B-Thinking supera a otros modelos de escala de parámetros similar en 23 de 28 tareas de referencia.
Iguala o supera a Qwen-2.5-VL-72B de 72B parámetros en 18 tareas de referencia.

Mejoras y Optimizaciones

Desde el lanzamiento de GLM-4.1V, el equipo ha resuelto muchos problemas reportados por la comunidad. En GLM-4.5V, problemas comunes como el pensamiento repetitivo y los errores de formato de salida se han mitigado.

Comunidad y Soporte

Experiencia en Línea: chat.z.ai
Interfaz API: Plataforma API de Z.ai
Hugging Face: GLM-4.5V, GLM-4.1V-9B-Thinking
Comunidad de Discord: Únete a la discusión

El proyecto GLM-V representa un avance significativo en la IA multimodal de código abierto, proporcionando a investigadores y desarrolladores potentes herramientas de comprensión y razonamiento de lenguaje visual, e impulsando el desarrollo de agentes multimodales y aplicaciones complejas de razonamiento visual.