GLM-4.5V 및 GLM-4.1V 시리즈: 다변화된 멀티모달 추론을 위한 오픈 소스 시각 언어 모델, 강화 학습을 통해 시각 추론 능력 향상
GLM-V 프로젝트 상세 소개
프로젝트 개요
GLM-V는 Z.ai(智谱AI)가 오픈 소스로 공개한 다중 모달 시각 언어 모델 시리즈로, GLM-4.5V와 GLM-4.1V 두 가지 주요 모델을 포함합니다. 이 프로젝트는 복잡한 추론 작업에서 시각 언어 모델의 기술적 최전선을 탐구하고, 강화 학습 기술을 통해 모델의 다중 모달 이해 및 추론 능력을 크게 향상시키는 것을 목표로 합니다.
GitHub 주소: https://github.com/zai-org/GLM-V
핵심 기능
🚀 주요 능력
- 이미지 추론: 장면 이해, 복잡한 다중 이미지 분석, 공간 인식
- 비디오 이해: 긴 비디오 분할 및 이벤트 인식
- GUI 작업: 화면 읽기, 아이콘 인식, 데스크톱 작업 지원
- 복잡한 차트 및 긴 문서 분석: 연구 보고서 분석, 정보 추출
- 정밀 위치 파악: 시각 요소의 정밀 위치 파악 능력
🧠 사고 모드 전환
모델은 사고 모드(Thinking Mode) 스위치를 도입하여 사용자가 빠른 응답과 심층 추론 사이에서 균형을 선택할 수 있도록 하며, 이는 GLM-4.5 언어 모델의 작동 방식과 동일합니다.
모델 아키텍처
GLM-4.5V
- 기본 모델: Z.ai의 차세대 플래그십 텍스트 기본 모델 GLM-4.5-Air 기반
- 매개변수 규모: 총 106B 매개변수, 12B 활성 매개변수
- 성능: 42개 공개 시각 언어 벤치마크에서 동급 규모 모델 중 SOTA 성능 달성
- 기술적 특징:
- 다양한 시각 콘텐츠 유형 지원
- 전 스펙트럼 시각 추론 능력
- 효율적인 하이브리드 훈련
- 실제 응용 시나리오에 중점
GLM-4.1V-9B-Thinking
- 기본 모델: GLM-4-9B-0414 기본 모델 기반
- 핵심 기술: 추론 패러다임 도입, RLCS(커리큘럼 샘플링을 통한 강화 학습) 사용
- 성능 우위:
- 10B급 VLM 중 최강 성능
- 18개 벤치마크 작업에서 72B 매개변수의 Qwen-2.5-VL과 동등하거나 능가
- 64k 컨텍스트 길이 지원
- 임의의 종횡비 및 최대 4k 이미지 해상도 지원
- 이중 언어(중국어 및 영어) 오픈 소스 버전
기술 혁신
추론 메커니즘
GLM-4.1V-9B-Thinking은 사고의 사슬(Chain-of-Thought) 추론 메커니즘을 통합하여 정확성, 풍부함 및 설명 가능성을 향상시켰습니다. 28개 벤치마크 작업 중 23개 작업에서 10B 매개변수 규모의 다른 모델들을 능가합니다.
강화 학습 훈련
모델은 확장 가능한 강화 학습 기술을 채택하여 RLCS 방법을 통해 모델 능력을 전반적으로 향상시켰으며, 특히 수학, 코드 및 논리 추론 작업에서 뛰어난 성능을 보입니다.
설치 및 사용
환경 요구 사항
NVIDIA GPU에 적합하며, Ascend NPU 추론을 지원합니다.
종속성 설치
SGLang 및 transformers의 경우:
pip install -r requirements.txt
vLLM의 경우:
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview
추론 예시
vLLM 서비스 사용
vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'
SGLang 서비스 사용
python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0
Transformers 코드 예시
from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch
MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://example.com/image.png"
},
{
"type": "text",
"text": "describe this image"
}
],
}
]
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
pretrained_model_name_or_path=MODEL_PATH,
torch_dtype="auto",
device_map="auto",
)
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
generated_ids[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=False
)
print(output_text)
미세 조정 지원
프로젝트는 LLaMA-Factory를 사용한 미세 조정을 지원합니다. 데이터셋 형식 예시:
[
{
"messages": [
{
"content": "<image>Who are they?",
"role": "user"
},
{
"content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
"role": "assistant"
}
],
"images": [
"mllm_demo_data/1.jpg"
]
}
]
응용 예시
GUI 에이전트
프로젝트는 GUI 에이전트의 예시를 제공하며, 모바일, PC 및 웹 환경에서의 프롬프트 구성 및 출력 처리 전략을 보여줍니다.
데스크톱 도우미
수작업으로 제작된 데스크톱 도우미 애플리케이션을 오픈 소스로 공개했으며, GLM-4.5V에 연결하여 스크린샷 또는 화면 녹화를 통해 PC 화면의 시각 정보를 캡처할 수 있습니다.
VLM 보상 시스템
GLM-4.1V-Thinking 훈련에 사용된 VLM 보상 시스템을 오픈 소스로 공개했으며, 로컬에서 실행할 수 있습니다:
python examples/reward_system_demo.py
성능
벤치마크 결과
- GLM-4.5V는 42개 공개 시각 언어 벤치마크에서 동급 규모 모델 중 SOTA 성능 달성
- GLM-4.1V-9B-Thinking은 28개 벤치마크 작업 중 23개에서 동급 매개변수 규모 모델을 능가
- 18개 벤치마크 작업에서 72B 매개변수의 Qwen-2.5-VL-72B와 동등하거나 능가
최적화 개선 사항
GLM-4.1V 출시 이후, 팀은 많은 커뮤니티 피드백 문제를 해결했습니다. GLM-4.5V에서는 반복적 사고 및 출력 형식 오류와 같은 일반적인 문제가 완화되었습니다.
커뮤니티 및 지원
- 온라인 체험: chat.z.ai
- API 인터페이스: Z.ai API 플랫폼
- Hugging Face: GLM-4.5V, GLM-4.1V-9B-Thinking
- Discord 커뮤니티: 토론 참여
GLM-V 프로젝트는 오픈 소스 다중 모달 AI의 중요한 진전을 나타내며, 연구자와 개발자에게 강력한 시각 언어 이해 및 추론 도구를 제공하여 다중 모달 에이전트 및 복잡한 시각 추론 응용 프로그램의 발전을 촉진합니다.