Series GLM-4.5V y GLM-4.1V: Modelos de lenguaje visual de código abierto orientados al razonamiento multimodal diversificado, que mejoran la capacidad de razonamiento visual a través del aprendizaje por refuerzo.
Descripción Detallada del Proyecto GLM-V
Resumen del Proyecto
GLM-V es una serie de modelos de lenguaje visual multimodal de código abierto de Zhipu AI (Z.ai), que incluye los dos modelos principales GLM-4.5V y GLM-4.1V. Este proyecto tiene como objetivo explorar la vanguardia tecnológica de los modelos de lenguaje visual en tareas de razonamiento complejas, mejorando significativamente la comprensión multimodal y las capacidades de razonamiento del modelo a través de técnicas de aprendizaje por refuerzo.
Dirección de GitHub: https://github.com/zai-org/GLM-V
Características Principales
🚀 Capacidades Clave
- Razonamiento de Imágenes: comprensión de escenas, análisis complejo de múltiples imágenes, reconocimiento espacial
- Comprensión de Video: segmentación de videos largos y reconocimiento de eventos
- Tareas de GUI: lectura de pantalla, reconocimiento de iconos, asistencia en operaciones de escritorio
- Análisis de Gráficos Complejos y Documentos Largos: análisis de informes de investigación, extracción de información
- Localización Precisa: capacidad de localización precisa de elementos visuales
🧠 Cambio de Modo de Pensamiento
El modelo introduce un interruptor de Modo de Pensamiento (Thinking Mode), que permite a los usuarios equilibrar la elección entre respuesta rápida y razonamiento profundo, funcionando de la misma manera que el modelo de lenguaje GLM-4.5.
Arquitectura del Modelo
GLM-4.5V
- Modelo Base: Basado en el modelo base de texto insignia de próxima generación de Zhipu AI, GLM-4.5-Air
- Escala de Parámetros: 106B parámetros totales, 12B parámetros activos
- Rendimiento: Alcanza el rendimiento SOTA para modelos de escala comparable en 42 pruebas de referencia públicas de lenguaje visual
- Características Técnicas:
- Soporta múltiples tipos de contenido visual
- Capacidad de razonamiento visual de espectro completo
- Entrenamiento híbrido eficiente
- Enfocado en escenarios de aplicación práctica
GLM-4.1V-9B-Thinking
- Modelo Base: Basado en el modelo base GLM-4-9B-0414
- Tecnología Central: Introduce un paradigma de razonamiento, utilizando RLCS (Aprendizaje por Refuerzo con Muestreo Curricular)
- Ventajas de Rendimiento:
- El VLM más potente en la categoría de 10B
- Iguala o supera a Qwen-2.5-VL de 72B parámetros en 18 tareas de referencia
- Soporta una longitud de contexto de 64k
- Soporta cualquier relación de aspecto y resoluciones de imagen de hasta 4k
- Versión de código abierto bilingüe (chino e inglés)
Innovaciones Técnicas
Mecanismo de Razonamiento
GLM-4.1V-9B-Thinking integra el mecanismo de razonamiento de Cadena de Pensamiento (Chain-of-Thought), mejorando la precisión, riqueza y explicabilidad. Supera a otros modelos de 10B parámetros en 23 de 28 tareas de referencia.
Entrenamiento por Aprendizaje por Refuerzo
El modelo utiliza una técnica de aprendizaje por refuerzo escalable, mejorando integralmente las capacidades del modelo a través del método RLCS, destacando especialmente en tareas de matemáticas, código y razonamiento lógico.
Instalación y Uso
Requisitos del Entorno
Adecuado para GPU NVIDIA, soporta inferencia en NPU Ascend.
Instalar Dependencias
Para SGLang y transformers:
pip install -r requirements.txt
Para vLLM:
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview
Ejemplos de Inferencia
Usando el servicio vLLM
vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'
Usando el servicio SGLang
python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0
Ejemplo de código con Transformers
from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch
MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://example.com/image.png"
},
{
"type": "text",
"text": "describe this image"
}
],
}
]
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
pretrained_model_name_or_path=MODEL_PATH,
torch_dtype="auto",
device_map="auto",
)
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
generated_ids[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=False
)
print(output_text)
Soporte para Ajuste Fino (Fine-tuning)
El proyecto soporta el ajuste fino utilizando LLaMA-Factory. Ejemplo de formato de conjunto de datos:
[
{
"messages": [
{
"content": "<image>Who are they?",
"role": "user"
},
{
"content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
"role": "assistant"
}
],
"images": [
"mllm_demo_data/1.jpg"
]
}
]
Ejemplos de Aplicación
Agente GUI
El proyecto proporciona ejemplos de agentes GUI, mostrando estrategias de construcción de prompts y procesamiento de salida en dispositivos móviles, PC y web.
Asistente de Escritorio
Se ha lanzado una aplicación de asistente de escritorio hecha a mano de código abierto, que, al conectarse a GLM-4.5V, puede capturar información visual de la pantalla del PC mediante capturas de pantalla o grabaciones de pantalla.
Sistema de Recompensa VLM
Se ha lanzado el sistema de recompensa VLM de código abierto utilizado para entrenar GLM-4.1V-Thinking, que se puede ejecutar localmente:
python examples/reward_system_demo.py
Rendimiento
Logros en Pruebas de Referencia
- GLM-4.5V alcanza el rendimiento SOTA para modelos de escala comparable en 42 pruebas de referencia públicas de lenguaje visual.
- GLM-4.1V-9B-Thinking supera a otros modelos de escala de parámetros similar en 23 de 28 tareas de referencia.
- Iguala o supera a Qwen-2.5-VL-72B de 72B parámetros en 18 tareas de referencia.
Mejoras y Optimizaciones
Desde el lanzamiento de GLM-4.1V, el equipo ha resuelto muchos problemas reportados por la comunidad. En GLM-4.5V, problemas comunes como el pensamiento repetitivo y los errores de formato de salida se han mitigado.
Comunidad y Soporte
- Experiencia en Línea: chat.z.ai
- Interfaz API: Plataforma API de Z.ai
- Hugging Face: GLM-4.5V, GLM-4.1V-9B-Thinking
- Comunidad de Discord: Únete a la discusión
El proyecto GLM-V representa un avance significativo en la IA multimodal de código abierto, proporcionando a investigadores y desarrolladores potentes herramientas de comprensión y razonamiento de lenguaje visual, e impulsando el desarrollo de agentes multimodales y aplicaciones complejas de razonamiento visual.