GLM-4.5VおよびGLM-4.1Vシリーズ:多様なマルチモーダル推論に対応したオープンソースの視覚言語モデル。強化学習を通じて視覚的推論能力を向上。
GLM-V プロジェクト詳細
プロジェクト概要
GLM-Vは、智譜AI(Z.ai)がオープンソース化したマルチモーダル視覚言語モデルシリーズであり、GLM-4.5VとGLM-4.1Vの2つの主要モデルを含みます。本プロジェクトは、複雑な推論タスクにおける視覚言語モデルの技術的フロンティアを探求し、強化学習技術を通じてモデルのマルチモーダル理解および推論能力を大幅に向上させることを目指しています。
GitHubアドレス: https://github.com/zai-org/GLM-V
コア機能
🚀 主要な能力
- 画像推論: シーン理解、複雑な複数画像分析、空間認識
- 動画理解: 長尺動画のセグメンテーションとイベント認識
- GUIタスク: スクリーン読み取り、アイコン認識、デスクトップ操作補助
- 複雑な図表と長文ドキュメントの解析: 研究レポート分析、情報抽出
- 精密な位置特定: 視覚要素の精密な位置特定能力
🧠 思考モード切り替え
モデルには思考モード(Thinking Mode)スイッチが導入されており、GLM-4.5言語モデルと同様に、ユーザーが高速応答と深層推論の間でバランスを選択できます。
モデルアーキテクチャ
GLM-4.5V
- ベースモデル: 智譜AIの次世代フラッグシップテキストベースモデルGLM-4.5-Airを基盤とする
- パラメータ規模: 総パラメータ106B、アクティブパラメータ12B
- 性能: 42の公開視覚言語ベンチマークテストで同規模モデルのSOTA性能を達成
- 技術的特徴:
- 多様な視覚コンテンツタイプをサポート
- フルスペクトル視覚推論能力
- 効率的なハイブリッド学習
- 実用的なアプリケーションシナリオを重視
GLM-4.1V-9B-Thinking
- ベースモデル: GLM-4-9B-0414ベースモデルを基盤とする
- コア技術: 推論パラダイムを導入し、RLCS(カリキュラムサンプリング付き強化学習)を使用
- 性能上の利点:
- 10BレベルのVLMで最強の性能
- 18のベンチマークタスクで72BパラメータのQwen-2.5-VLに匹敵またはそれを超える
- 64kのコンテキスト長をサポート
- 任意のアスペクト比と最大4kの画像解像度をサポート
- バイリンガル(中国語・英語)オープンソース版
技術革新
推論メカニズム
GLM-4.1V-9B-Thinkingは、思考の連鎖(Chain-of-Thought)推論メカニズムを統合し、精度、豊富さ、説明可能性を向上させました。28のベンチマークタスクのうち23のタスクで、10Bパラメータ規模の他のモデルを上回っています。
強化学習による学習
モデルはスケーラブルな強化学習技術を採用し、RLCS手法を通じてモデル能力を包括的に向上させ、特に数学、コード、論理推論タスクで優れた性能を発揮します。
インストールと使用方法
環境要件
NVIDIA GPUに対応し、Ascend NPU推論もサポートします。
依存関係のインストール
SGLangとtransformersの場合:
pip install -r requirements.txt
vLLMの場合:
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview
推論例
vLLMサービスの使用
vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'
SGLangサービスの使用
python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0
Transformersコード例
from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch
MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://example.com/image.png"
},
{
"type": "text",
"text": "describe this image"
}
],
}
]
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
pretrained_model_name_or_path=MODEL_PATH,
torch_dtype="auto",
device_map="auto",
)
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
generated_ids[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=False
)
print(output_text)
ファインチューニングのサポート
本プロジェクトはLLaMA-Factoryを使用したファインチューニングをサポートしています。データセット形式の例:
[
{
"messages": [
{
"content": "<image>Who are they?",
"role": "user"
},
{
"content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
"role": "assistant"
}
],
"images": [
"mllm_demo_data/1.jpg"
]
}
]
アプリケーション例
GUIエージェント
本プロジェクトはGUIエージェントの例を提供しており、モバイル、PC、Webにおけるプロンプト構築と出力処理戦略を示しています。
デスクトップアシスタント
手作りのデスクトップアシスタントアプリケーションをオープンソース化しました。GLM-4.5Vに接続すると、スクリーンショットや画面録画を通じてPC画面の視覚情報を取得できます。
VLM報酬システム
GLM-4.1V-Thinkingの学習に使用されたVLM報酬システムをオープンソース化しました。ローカルで実行可能です:
python examples/reward_system_demo.py
性能
ベンチマーク結果
- GLM-4.5Vは42の公開視覚言語ベンチマークテストで同規模モデルのSOTA性能を達成
- GLM-4.1V-9B-Thinkingは28のベンチマークタスクのうち23のタスクで同等パラメータ規模のモデルを上回る
- 18のベンチマークタスクで72BパラメータのQwen-2.5-VL-72Bに匹敵またはそれを超える
最適化と改善
GLM-4.1Vのリリース以来、チームは多くのコミュニティからのフィードバックに対応してきました。GLM-4.5Vでは、思考の繰り返しや出力形式の誤りといった一般的な問題が軽減されています。
コミュニティとサポート
- オンライン体験: chat.z.ai
- APIインターフェース: Z.ai APIプラットフォーム
- Hugging Face: GLM-4.5V、GLM-4.1V-9B-Thinking
- Discordコミュニティ: ディスカッションに参加
GLM-Vプロジェクトは、オープンソースのマルチモーダルAIにおける重要な進歩を象徴しており、研究者や開発者に強力な視覚言語理解および推論ツールを提供し、マルチモーダルエージェントと複雑な視覚推論アプリケーションの発展を推進しています。