zai-org/GLM-VView GitHub Homepage for Latest Official Releases

Série GLM-4.5V et GLM-4.1V : Modèles de langage visuel open source pour un raisonnement multimodal diversifié, améliorant les capacités de raisonnement visuel grâce à l'apprentissage par renforcement.

Apache-2.0PythonGLM-Vzai-org 1.7k Last Updated: September 22, 2025

Présentation détaillée du projet GLM-V

Aperçu du projet

GLM-V est une série de modèles de langage visuels multimodaux open-source développée par Zhipu AI (Z.ai), comprenant les deux modèles principaux GLM-4.5V et GLM-4.1V. Ce projet vise à explorer les avancées technologiques des modèles de langage visuels dans les tâches de raisonnement complexes, en améliorant significativement les capacités de compréhension et de raisonnement multimodal des modèles grâce aux techniques d'apprentissage par renforcement.

Adresse GitHub: https://github.com/zai-org/GLM-V

Caractéristiques principales

🚀 Capacités principales

Raisonnement visuel : compréhension de scènes, analyse complexe de plusieurs images, reconnaissance spatiale
Compréhension vidéo : segmentation de vidéos longues et reconnaissance d'événements
Tâches GUI : lecture d'écran, reconnaissance d'icônes, assistance aux opérations de bureau
Analyse de graphiques complexes et de documents longs : analyse de rapports de recherche, extraction d'informations
Localisation précise : capacité de localisation précise des éléments visuels

🧠 Commutation du mode de pensée

Le modèle intègre un interrupteur de mode de pensée (Thinking Mode), permettant aux utilisateurs de choisir un équilibre entre réponse rapide et raisonnement approfondi, de la même manière que le modèle de langage GLM-4.5.

Architecture du modèle

GLM-4.5V

Modèle de base : basé sur GLM-4.5-Air, le modèle de texte fondamental phare de nouvelle génération de Zhipu AI
Échelle des paramètres : 106 milliards de paramètres au total, 12 milliards de paramètres actifs
Performances : atteint des performances SOTA (State-Of-The-Art) pour les modèles de taille équivalente sur 42 benchmarks publics de langage visuel
Caractéristiques techniques :
- Prend en charge divers types de contenu visuel
- Capacités de raisonnement visuel à spectre complet
- Entraînement hybride efficace
- Axé sur les scénarios d'application pratiques

GLM-4.1V-9B-Thinking

Modèle de base : basé sur le modèle fondamental GLM-4-9B-0414
Technologie clé : introduction d'un paradigme de raisonnement, utilisant le RLCS (Reinforcement Learning with Curriculum Sampling)
Avantages en termes de performances :
- Le VLM le plus performant de la catégorie 10 milliards de paramètres
- Égale ou surpasse Qwen-2.5-VL avec 72 milliards de paramètres sur 18 tâches de référence
- Prend en charge une longueur de contexte de 64k
- Prend en charge n'importe quel rapport d'aspect et une résolution d'image allant jusqu'à 4k
- Version open-source bilingue (chinois et anglais)

Innovations technologiques

Mécanisme de raisonnement

GLM-4.1V-9B-Thinking intègre un mécanisme de raisonnement en chaîne de pensée (Chain-of-Thought), améliorant la précision, la richesse et l'explicabilité. Il surpasse les autres modèles de la catégorie 10 milliards de paramètres sur 23 des 28 tâches de référence.

Entraînement par apprentissage par renforcement

Le modèle utilise une technique d'apprentissage par renforcement évolutive, améliorant globalement les capacités du modèle grâce à la méthode RLCS, avec des performances particulièrement remarquables dans les tâches de mathématiques, de code et de raisonnement logique.

Installation et utilisation

Exigences environnementales

Compatible avec les GPU NVIDIA, prend en charge l'inférence sur NPU Ascend.

Installation des dépendances

Pour SGLang et transformers :

pip install -r requirements.txt

Pour vLLM :

pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview

Exemples d'inférence

Utilisation du service vLLM

vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'

Utilisation du service SGLang

python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0

Exemple de code Transformers

from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch

MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://example.com/image.png"
            },
            {
                "type": "text",
                "text": "describe this image"
            }
        ],
    }
]

processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype="auto",
    device_map="auto",
)

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
    generated_ids[0][inputs["input_ids"].shape[1]:],
    skip_special_tokens=False
)
print(output_text)

Support du fine-tuning

Le projet prend en charge le fine-tuning avec LLaMA-Factory. Exemple de format de jeu de données :

[
    {
        "messages": [
            {
                "content": "<image>Who are they?",
                "role": "user"
            },
            {
                "content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
                "role": "assistant"
            }
        ],
        "images": [
            "mllm_demo_data/1.jpg"
        ]
    }
]

Exemples d'application

Agent GUI

Le projet fournit des exemples d'agents GUI, démontrant les stratégies de construction de prompts et de traitement des sorties sur les plateformes mobiles, PC et Web.

Assistant de bureau

Une application d'assistant de bureau artisanale a été open-sourcée. Connectée à GLM-4.5V, elle peut capturer des informations visuelles de l'écran du PC via des captures d'écran ou des enregistrements d'écran.

Système de récompense VLM

Le système de récompense VLM utilisé pour l'entraînement de GLM-4.1V-Thinking a été open-sourcé et peut être exécuté localement :

python examples/reward_system_demo.py

Performances

Résultats des benchmarks

GLM-4.5V atteint des performances SOTA pour les modèles de taille équivalente sur 42 benchmarks publics de langage visuel
GLM-4.1V-9B-Thinking surpasse les modèles de taille de paramètres équivalente sur 23 des 28 tâches de référence
Égale ou surpasse Qwen-2.5-VL-72B avec 72 milliards de paramètres sur 18 tâches de référence

Optimisations et améliorations

Depuis la publication de GLM-4.1V, l'équipe a résolu de nombreux problèmes signalés par la communauté. Dans GLM-4.5V, des problèmes courants tels que la pensée répétitive et les erreurs de format de sortie ont été atténués.

Communauté et support

Expérience en ligne : chat.z.ai
Interface API : Plateforme API Z.ai
Hugging Face : GLM-4.5V, GLM-4.1V-9B-Thinking
Communauté Discord : Rejoindre la discussion

Le projet GLM-V représente une avancée significative dans l'IA multimodale open-source, offrant aux chercheurs et aux développeurs de puissants outils de compréhension et de raisonnement visuel-linguistique, et favorisant le développement d'agents multimodaux et d'applications de raisonnement visuel complexes.