سلسلة GLM-4.5V و GLM-4.1V: نماذج لغة بصرية مفتوحة المصدر للاستدلال متعدد الوسائط المتنوع، تعزز قدرات الاستدلال البصري من خلال التعلم المعزز.
تقديم تفصيلي لمشروع GLM-V
نظرة عامة على المشروع
GLM-V هي سلسلة نماذج لغوية بصرية متعددة الوسائط مفتوحة المصدر من Z.ai (智谱AI)، وتتضمن النموذجين الرئيسيين GLM-4.5V و GLM-4.1V. يهدف هذا المشروع إلى استكشاف أحدث التقنيات في نماذج اللغة البصرية لمهام الاستدلال المعقدة، ومن خلال تقنيات التعلم المعزز، يتم تعزيز قدرات النموذج على الفهم والاستدلال متعدد الوسائط بشكل كبير.
عنوان GitHub: https://github.com/zai-org/GLM-V
الميزات الأساسية
🚀 القدرات الرئيسية
- الاستدلال على الصور: فهم المشهد، تحليل الصور المتعددة المعقدة، التعرف المكاني.
- فهم الفيديو: تقسيم الفيديو الطويل وتحديد الأحداث.
- مهام واجهة المستخدم الرسومية (GUI): قراءة الشاشة، التعرف على الأيقونات، مساعدة عمليات سطح المكتب.
- تحليل الرسوم البيانية المعقدة والمستندات الطويلة: تحليل التقارير البحثية، استخراج المعلومات.
- التحديد الدقيق للموقع: القدرة على التحديد الدقيق للعناصر البصرية.
🧠 تبديل وضع التفكير
يقدم النموذج مفتاح تبديل لوضع التفكير (Thinking Mode)، مما يسمح للمستخدمين بالموازنة بين الاستجابة السريعة والاستدلال العميق، بنفس طريقة عمل النموذج اللغوي GLM-4.5.
بنية النموذج
GLM-4.5V
- النموذج الأساسي: يعتمد على النموذج النصي الأساسي الرائد من الجيل التالي لـ Z.ai، وهو GLM-4.5-Air.
- حجم المعلمات: إجمالي 106 مليار معلمة، 12 مليار معلمة نشطة.
- الأداء: يحقق أداء SOTA (أحدث ما توصلت إليه التقنية) للنماذج ذات الحجم المماثل في 42 معيارًا عامًا للغة البصرية.
- الميزات التقنية:
- يدعم أنواعًا متعددة من المحتوى البصري.
- قدرة استدلال بصري كاملة الطيف.
- تدريب مختلط فعال.
- يركز على سيناريوهات التطبيق الواقعية.
GLM-4.1V-9B-Thinking
- النموذج الأساسي: يعتمد على النموذج الأساسي GLM-4-9B-0414.
- التقنية الأساسية: يقدم نموذج الاستدلال، ويستخدم RLCS (التعلم المعزز مع أخذ العينات المنهجية).
- مزايا الأداء:
- الأقوى أداءً بين نماذج VLM من فئة 10 مليار معلمة.
- يطابق أو يتجاوز أداء Qwen-2.5-VL ذي الـ 72 مليار معلمة في 18 مهمة معيارية.
- يدعم طول سياق يصل إلى 64 ألف.
- يدعم أي نسبة عرض إلى ارتفاع ودقة صور تصل إلى 4K.
- إصدار مفتوح المصدر ثنائي اللغة (الصينية والإنجليزية).
الابتكار التقني
آلية الاستدلال
يدمج GLM-4.1V-9B-Thinking آلية استدلال سلسلة التفكير (Chain-of-Thought)، مما يعزز الدقة والثراء وقابلية التفسير. يتفوق على النماذج الأخرى ذات حجم 10 مليار معلمة في 23 من أصل 28 مهمة معيارية.
تدريب التعلم المعزز
يستخدم النموذج تقنية التعلم المعزز القابلة للتطوير، ومن خلال طريقة RLCS، يتم تعزيز قدرات النموذج بشكل شامل، ويظهر أداءً متميزًا بشكل خاص في مهام الرياضيات والبرمجة والاستدلال المنطقي.
التثبيت والاستخدام
متطلبات البيئة
مناسب لوحدات معالجة الرسوميات NVIDIA، ويدعم الاستدلال على وحدات المعالجة العصبية Ascend NPU.
تثبيت التبعيات
بالنسبة لـ SGLang و transformers:
pip install -r requirements.txt
بالنسبة لـ vLLM:
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview
أمثلة الاستدلال
استخدام خدمة vLLM
vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'
استخدام خدمة SGLang
python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0
مثال كود Transformers
from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch
MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://example.com/image.png"
},
{
"type": "text",
"text": "describe this image"
}
],
}
]
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
pretrained_model_name_or_path=MODEL_PATH,
torch_dtype="auto",
device_map="auto",
)
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
generated_ids[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=False
)
print(output_text)
دعم الضبط الدقيق
يدعم المشروع استخدام LLaMA-Factory للضبط الدقيق. مثال على تنسيق مجموعة البيانات:
[
{
"messages": [
{
"content": "<image>Who are they?",
"role": "user"
},
{
"content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
"role": "assistant"
}
],
"images": [
"mllm_demo_data/1.jpg"
]
}
]
أمثلة التطبيق
وكيل واجهة المستخدم الرسومية (GUI)
يقدم المشروع أمثلة لوكيل واجهة المستخدم الرسومية (GUI)، توضح استراتيجيات بناء المطالبات ومعالجة المخرجات على الأجهزة المحمولة وأجهزة الكمبيوتر والويب.
مساعد سطح المكتب
تم إصدار تطبيق مساعد سطح مكتب يدوي الصنع مفتوح المصدر، والذي يمكنه التقاط المعلومات البصرية من شاشة الكمبيوتر عبر لقطات الشاشة أو تسجيل الشاشة عند الاتصال بـ GLM-4.5V.
نظام مكافآت VLM
تم إصدار نظام مكافآت VLM مفتوح المصدر المستخدم لتدريب GLM-4.1V-Thinking، ويمكن تشغيله محليًا:
python examples/reward_system_demo.py
الأداء
إنجازات الاختبارات المعيارية
- يحقق GLM-4.5V أداء SOTA للنماذج ذات الحجم المماثل في 42 معيارًا عامًا للغة البصرية.
- يتفوق GLM-4.1V-9B-Thinking على النماذج ذات حجم المعلمات المماثل في 23 من أصل 28 مهمة معيارية.
- يطابق أو يتجاوز أداء Qwen-2.5-VL-72B ذي الـ 72 مليار معلمة في 18 مهمة معيارية.
تحسينات التحسين
منذ إصدار GLM-4.1V، قام الفريق بحل العديد من المشكلات التي أبلغ عنها المجتمع. في GLM-4.5V، تم التخفيف من المشكلات الشائعة مثل التفكير المتكرر وأخطاء تنسيق الإخراج.
المجتمع والدعم
- تجربة عبر الإنترنت: chat.z.ai
- واجهة برمجة التطبيقات (API): منصة Z.ai API
- Hugging Face: GLM-4.5V، GLM-4.1V-9B-Thinking
- مجتمع Discord: انضم إلى المناقشة
يمثل مشروع GLM-V تقدمًا مهمًا في الذكاء الاصطناعي متعدد الوسائط مفتوح المصدر، ويوفر للباحثين والمطورين أدوات قوية لفهم اللغة البصرية والاستدلال عليها، مما يدفع تطوير الوكلاء متعددي الوسائط وتطبيقات الاستدلال البصري المعقدة.