Série GLM-4.5V et GLM-4.1V : Modèles de langage visuel open source pour un raisonnement multimodal diversifié, améliorant les capacités de raisonnement visuel grâce à l'apprentissage par renforcement.
Présentation détaillée du projet GLM-V
Aperçu du projet
GLM-V est une série de modèles de langage visuels multimodaux open-source développée par Zhipu AI (Z.ai), comprenant les deux modèles principaux GLM-4.5V et GLM-4.1V. Ce projet vise à explorer les avancées technologiques des modèles de langage visuels dans les tâches de raisonnement complexes, en améliorant significativement les capacités de compréhension et de raisonnement multimodal des modèles grâce aux techniques d'apprentissage par renforcement.
Adresse GitHub: https://github.com/zai-org/GLM-V
Caractéristiques principales
🚀 Capacités principales
- Raisonnement visuel : compréhension de scènes, analyse complexe de plusieurs images, reconnaissance spatiale
- Compréhension vidéo : segmentation de vidéos longues et reconnaissance d'événements
- Tâches GUI : lecture d'écran, reconnaissance d'icônes, assistance aux opérations de bureau
- Analyse de graphiques complexes et de documents longs : analyse de rapports de recherche, extraction d'informations
- Localisation précise : capacité de localisation précise des éléments visuels
🧠 Commutation du mode de pensée
Le modèle intègre un interrupteur de mode de pensée (Thinking Mode), permettant aux utilisateurs de choisir un équilibre entre réponse rapide et raisonnement approfondi, de la même manière que le modèle de langage GLM-4.5.
Architecture du modèle
GLM-4.5V
- Modèle de base : basé sur GLM-4.5-Air, le modèle de texte fondamental phare de nouvelle génération de Zhipu AI
- Échelle des paramètres : 106 milliards de paramètres au total, 12 milliards de paramètres actifs
- Performances : atteint des performances SOTA (State-Of-The-Art) pour les modèles de taille équivalente sur 42 benchmarks publics de langage visuel
- Caractéristiques techniques :
- Prend en charge divers types de contenu visuel
- Capacités de raisonnement visuel à spectre complet
- Entraînement hybride efficace
- Axé sur les scénarios d'application pratiques
GLM-4.1V-9B-Thinking
- Modèle de base : basé sur le modèle fondamental GLM-4-9B-0414
- Technologie clé : introduction d'un paradigme de raisonnement, utilisant le RLCS (Reinforcement Learning with Curriculum Sampling)
- Avantages en termes de performances :
- Le VLM le plus performant de la catégorie 10 milliards de paramètres
- Égale ou surpasse Qwen-2.5-VL avec 72 milliards de paramètres sur 18 tâches de référence
- Prend en charge une longueur de contexte de 64k
- Prend en charge n'importe quel rapport d'aspect et une résolution d'image allant jusqu'à 4k
- Version open-source bilingue (chinois et anglais)
Innovations technologiques
Mécanisme de raisonnement
GLM-4.1V-9B-Thinking intègre un mécanisme de raisonnement en chaîne de pensée (Chain-of-Thought), améliorant la précision, la richesse et l'explicabilité. Il surpasse les autres modèles de la catégorie 10 milliards de paramètres sur 23 des 28 tâches de référence.
Entraînement par apprentissage par renforcement
Le modèle utilise une technique d'apprentissage par renforcement évolutive, améliorant globalement les capacités du modèle grâce à la méthode RLCS, avec des performances particulièrement remarquables dans les tâches de mathématiques, de code et de raisonnement logique.
Installation et utilisation
Exigences environnementales
Compatible avec les GPU NVIDIA, prend en charge l'inférence sur NPU Ascend.
Installation des dépendances
Pour SGLang et transformers :
pip install -r requirements.txt
Pour vLLM :
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview
Exemples d'inférence
Utilisation du service vLLM
vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'
Utilisation du service SGLang
python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0
Exemple de code Transformers
from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch
MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://example.com/image.png"
},
{
"type": "text",
"text": "describe this image"
}
],
}
]
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
pretrained_model_name_or_path=MODEL_PATH,
torch_dtype="auto",
device_map="auto",
)
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
generated_ids[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=False
)
print(output_text)
Support du fine-tuning
Le projet prend en charge le fine-tuning avec LLaMA-Factory. Exemple de format de jeu de données :
[
{
"messages": [
{
"content": "<image>Who are they?",
"role": "user"
},
{
"content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
"role": "assistant"
}
],
"images": [
"mllm_demo_data/1.jpg"
]
}
]
Exemples d'application
Agent GUI
Le projet fournit des exemples d'agents GUI, démontrant les stratégies de construction de prompts et de traitement des sorties sur les plateformes mobiles, PC et Web.
Assistant de bureau
Une application d'assistant de bureau artisanale a été open-sourcée. Connectée à GLM-4.5V, elle peut capturer des informations visuelles de l'écran du PC via des captures d'écran ou des enregistrements d'écran.
Système de récompense VLM
Le système de récompense VLM utilisé pour l'entraînement de GLM-4.1V-Thinking a été open-sourcé et peut être exécuté localement :
python examples/reward_system_demo.py
Performances
Résultats des benchmarks
- GLM-4.5V atteint des performances SOTA pour les modèles de taille équivalente sur 42 benchmarks publics de langage visuel
- GLM-4.1V-9B-Thinking surpasse les modèles de taille de paramètres équivalente sur 23 des 28 tâches de référence
- Égale ou surpasse Qwen-2.5-VL-72B avec 72 milliards de paramètres sur 18 tâches de référence
Optimisations et améliorations
Depuis la publication de GLM-4.1V, l'équipe a résolu de nombreux problèmes signalés par la communauté. Dans GLM-4.5V, des problèmes courants tels que la pensée répétitive et les erreurs de format de sortie ont été atténués.
Communauté et support
- Expérience en ligne : chat.z.ai
- Interface API : Plateforme API Z.ai
- Hugging Face : GLM-4.5V, GLM-4.1V-9B-Thinking
- Communauté Discord : Rejoindre la discussion
Le projet GLM-V représente une avancée significative dans l'IA multimodale open-source, offrant aux chercheurs et aux développeurs de puissants outils de compréhension et de raisonnement visuel-linguistique, et favorisant le développement d'agents multimodaux et d'applications de raisonnement visuel complexes.