Série GLM-4.5V e GLM-4.1V: Modelos de linguagem visual de código aberto para raciocínio multimodal diversificado, aprimorados por aprendizado por reforço para melhorar a capacidade de raciocínio visual.
Introdução Detalhada ao Projeto GLM-V
Visão Geral do Projeto
GLM-V é uma série de modelos de linguagem visual multimodal de código aberto da Z.ai (智谱AI), que inclui os modelos principais GLM-4.5V e GLM-4.1V. Este projeto visa explorar a vanguarda tecnológica dos modelos de linguagem visual em tarefas de raciocínio complexas, melhorando significativamente a compreensão multimodal e as capacidades de raciocínio do modelo através de técnicas de aprendizado por reforço.
Endereço GitHub: https://github.com/zai-org/GLM-V
Características Principais
🚀 Capacidades Principais
- Raciocínio de Imagem: Compreensão de cena, análise complexa de múltiplas imagens, reconhecimento espacial
- Compreensão de Vídeo: Segmentação de vídeo longo e reconhecimento de eventos
- Tarefas GUI: Leitura de tela, reconhecimento de ícones, assistência a operações de desktop
- Análise de Gráficos Complexos e Documentos Longos: Análise de relatórios de pesquisa, extração de informações
- Localização Precisa: Capacidade de localização precisa de elementos visuais
🧠 Alternância de Modo de Pensamento
O modelo introduz um interruptor de Modo de Pensamento (Thinking Mode), permitindo que os usuários equilibrem a escolha entre resposta rápida e raciocínio profundo, funcionando da mesma forma que o modelo de linguagem GLM-4.5.
Arquitetura do Modelo
GLM-4.5V
- Modelo Base: Baseado no modelo de texto base carro-chefe de próxima geração da Z.ai, GLM-4.5-Air
- Escala de Parâmetros: 106B parâmetros totais, 12B parâmetros ativos
- Desempenho: Atinge o desempenho SOTA para modelos de escala equivalente em 42 benchmarks públicos de linguagem visual
- Características Técnicas:
- Suporta vários tipos de conteúdo visual
- Capacidade de raciocínio visual de espectro completo
- Treinamento híbrido eficiente
- Foco em cenários de aplicação prática
GLM-4.1V-9B-Thinking
- Modelo Base: Baseado no modelo base GLM-4-9B-0414
- Tecnologia Central: Introduz o paradigma de raciocínio, usando RLCS (Aprendizado por Reforço com Amostragem Curricular)
- Vantagens de Desempenho:
- O VLM mais poderoso na categoria de 10B parâmetros
- Em 18 tarefas de benchmark, iguala ou supera o Qwen-2.5-VL de 72B parâmetros
- Suporta comprimento de contexto de 64k
- Suporta qualquer proporção e resolução de imagem de até 4k
- Versão de código aberto bilíngue (chinês e inglês)
Inovações Tecnológicas
Mecanismo de Raciocínio
GLM-4.1V-9B-Thinking integra o mecanismo de raciocínio Chain-of-Thought (Cadeia de Pensamento), melhorando a precisão, riqueza e interpretabilidade. Em 23 das 28 tarefas de benchmark, supera outros modelos de 10B parâmetros.
Treinamento por Aprendizado por Reforço
O modelo emprega tecnologia de aprendizado por reforço escalável, usando o método RLCS para aprimorar de forma abrangente as capacidades do modelo, com desempenho notável em tarefas de matemática, código e raciocínio lógico.
Instalação e Uso
Requisitos de Ambiente
Adequado para NVIDIA GPU, suporta inferência em Ascend NPU.
Instalar Dependências
Para SGLang e transformers:
pip install -r requirements.txt
Para vLLM:
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview
Exemplo de Inferência
Usando o serviço vLLM
vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'
Usando o serviço SGLang
python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0
Exemplo de Código Transformers
from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch
MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://example.com/image.png"
},
{
"type": "text",
"text": "describe this image"
}
],
}
]
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
pretrained_model_name_or_path=MODEL_PATH,
torch_dtype="auto",
device_map="auto",
)
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
generated_ids[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=False
)
print(output_text)
Suporte a Fine-tuning
O projeto suporta fine-tuning usando LLaMA-Factory. Exemplo de formato de conjunto de dados:
[
{
"messages": [
{
"content": "<image>Who are they?",
"role": "user"
},
{
"content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
"role": "assistant"
}
],
"images": [
"mllm_demo_data/1.jpg"
]
}
]
Exemplos de Aplicação
Agente GUI
O projeto oferece exemplos de agentes GUI, demonstrando estratégias de construção de prompts e processamento de saída em dispositivos móveis, PCs e na web.
Assistente de Desktop
Foi lançado um aplicativo de assistente de desktop feito à mão, que pode capturar informações visuais da tela do PC através de capturas de tela ou gravação de tela quando conectado ao GLM-4.5V.
Sistema de Recompensa VLM
O sistema de recompensa VLM usado para treinar o GLM-4.1V-Thinking foi lançado como código aberto e pode ser executado localmente:
python examples/reward_system_demo.py
Desempenho
Conquistas em Benchmarks
- GLM-4.5V atinge desempenho SOTA para modelos de escala equivalente em 42 benchmarks públicos de linguagem visual
- GLM-4.1V-9B-Thinking supera modelos de escala de parâmetros equivalente em 23 das 28 tarefas de benchmark
- Em 18 tarefas de benchmark, iguala ou supera o Qwen-2.5-VL-72B de 72B parâmetros
Melhorias de Otimização
Desde o lançamento do GLM-4.1V, a equipe resolveu muitos problemas relatados pela comunidade. No GLM-4.5V, problemas comuns como pensamento repetitivo e erros de formato de saída foram mitigados.
Comunidade e Suporte
- Experiência Online: chat.z.ai
- Interface API: Plataforma API Z.ai
- Hugging Face: GLM-4.5V, GLM-4.1V-9B-Thinking
- Comunidade Discord: Junte-se à discussão
O projeto GLM-V representa um avanço significativo na IA multimodal de código aberto, fornecendo a pesquisadores e desenvolvedores ferramentas poderosas de compreensão e raciocínio de linguagem visual, impulsionando o desenvolvimento de agentes multimodais e aplicações complexas de raciocínio visual.