Série GLM-4.5V e GLM-4.1V: Modelos de linguagem visual de código aberto para raciocínio multimodal diversificado, aprimorados por aprendizado por reforço para melhorar a capacidade de raciocínio visual.

Apache-2.0PythonGLM-Vzai-org 1.4k Last Updated: August 14, 2025

Introdução Detalhada ao Projeto GLM-V

Visão Geral do Projeto

GLM-V é uma série de modelos de linguagem visual multimodal de código aberto da Z.ai (智谱AI), que inclui os modelos principais GLM-4.5V e GLM-4.1V. Este projeto visa explorar a vanguarda tecnológica dos modelos de linguagem visual em tarefas de raciocínio complexas, melhorando significativamente a compreensão multimodal e as capacidades de raciocínio do modelo através de técnicas de aprendizado por reforço.

Endereço GitHub: https://github.com/zai-org/GLM-V

Características Principais

🚀 Capacidades Principais

  • Raciocínio de Imagem: Compreensão de cena, análise complexa de múltiplas imagens, reconhecimento espacial
  • Compreensão de Vídeo: Segmentação de vídeo longo e reconhecimento de eventos
  • Tarefas GUI: Leitura de tela, reconhecimento de ícones, assistência a operações de desktop
  • Análise de Gráficos Complexos e Documentos Longos: Análise de relatórios de pesquisa, extração de informações
  • Localização Precisa: Capacidade de localização precisa de elementos visuais

🧠 Alternância de Modo de Pensamento

O modelo introduz um interruptor de Modo de Pensamento (Thinking Mode), permitindo que os usuários equilibrem a escolha entre resposta rápida e raciocínio profundo, funcionando da mesma forma que o modelo de linguagem GLM-4.5.

Arquitetura do Modelo

GLM-4.5V

  • Modelo Base: Baseado no modelo de texto base carro-chefe de próxima geração da Z.ai, GLM-4.5-Air
  • Escala de Parâmetros: 106B parâmetros totais, 12B parâmetros ativos
  • Desempenho: Atinge o desempenho SOTA para modelos de escala equivalente em 42 benchmarks públicos de linguagem visual
  • Características Técnicas:
    • Suporta vários tipos de conteúdo visual
    • Capacidade de raciocínio visual de espectro completo
    • Treinamento híbrido eficiente
    • Foco em cenários de aplicação prática

GLM-4.1V-9B-Thinking

  • Modelo Base: Baseado no modelo base GLM-4-9B-0414
  • Tecnologia Central: Introduz o paradigma de raciocínio, usando RLCS (Aprendizado por Reforço com Amostragem Curricular)
  • Vantagens de Desempenho:
    • O VLM mais poderoso na categoria de 10B parâmetros
    • Em 18 tarefas de benchmark, iguala ou supera o Qwen-2.5-VL de 72B parâmetros
    • Suporta comprimento de contexto de 64k
    • Suporta qualquer proporção e resolução de imagem de até 4k
    • Versão de código aberto bilíngue (chinês e inglês)

Inovações Tecnológicas

Mecanismo de Raciocínio

GLM-4.1V-9B-Thinking integra o mecanismo de raciocínio Chain-of-Thought (Cadeia de Pensamento), melhorando a precisão, riqueza e interpretabilidade. Em 23 das 28 tarefas de benchmark, supera outros modelos de 10B parâmetros.

Treinamento por Aprendizado por Reforço

O modelo emprega tecnologia de aprendizado por reforço escalável, usando o método RLCS para aprimorar de forma abrangente as capacidades do modelo, com desempenho notável em tarefas de matemática, código e raciocínio lógico.

Instalação e Uso

Requisitos de Ambiente

Adequado para NVIDIA GPU, suporta inferência em Ascend NPU.

Instalar Dependências

Para SGLang e transformers:

pip install -r requirements.txt

Para vLLM:

pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview

Exemplo de Inferência

Usando o serviço vLLM

vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'

Usando o serviço SGLang

python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0

Exemplo de Código Transformers

from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch

MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://example.com/image.png"
            },
            {
                "type": "text",
                "text": "describe this image"
            }
        ],
    }
]

processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype="auto",
    device_map="auto",
)

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
    generated_ids[0][inputs["input_ids"].shape[1]:], 
    skip_special_tokens=False
)
print(output_text)

Suporte a Fine-tuning

O projeto suporta fine-tuning usando LLaMA-Factory. Exemplo de formato de conjunto de dados:

[
    {
        "messages": [
            {
                "content": "<image>Who are they?",
                "role": "user"
            },
            {
                "content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
                "role": "assistant"
            }
        ],
        "images": [
            "mllm_demo_data/1.jpg"
        ]
    }
]

Exemplos de Aplicação

Agente GUI

O projeto oferece exemplos de agentes GUI, demonstrando estratégias de construção de prompts e processamento de saída em dispositivos móveis, PCs e na web.

Assistente de Desktop

Foi lançado um aplicativo de assistente de desktop feito à mão, que pode capturar informações visuais da tela do PC através de capturas de tela ou gravação de tela quando conectado ao GLM-4.5V.

Sistema de Recompensa VLM

O sistema de recompensa VLM usado para treinar o GLM-4.1V-Thinking foi lançado como código aberto e pode ser executado localmente:

python examples/reward_system_demo.py

Desempenho

Conquistas em Benchmarks

  • GLM-4.5V atinge desempenho SOTA para modelos de escala equivalente em 42 benchmarks públicos de linguagem visual
  • GLM-4.1V-9B-Thinking supera modelos de escala de parâmetros equivalente em 23 das 28 tarefas de benchmark
  • Em 18 tarefas de benchmark, iguala ou supera o Qwen-2.5-VL-72B de 72B parâmetros

Melhorias de Otimização

Desde o lançamento do GLM-4.1V, a equipe resolveu muitos problemas relatados pela comunidade. No GLM-4.5V, problemas comuns como pensamento repetitivo e erros de formato de saída foram mitigados.

Comunidade e Suporte

O projeto GLM-V representa um avanço significativo na IA multimodal de código aberto, fornecendo a pesquisadores e desenvolvedores ferramentas poderosas de compreensão e raciocínio de linguagem visual, impulsionando o desenvolvimento de agentes multimodais e aplicações complexas de raciocínio visual.

Star History Chart