zai-org/GLM-VView GitHub Homepage for Latest Official Releases

GLM-4.5V 및 GLM-4.1V 시리즈: 다변화된 멀티모달 추론을 위한 오픈 소스 시각 언어 모델, 강화 학습을 통해 시각 추론 능력 향상

Apache-2.0PythonGLM-Vzai-org 1.7k Last Updated: September 22, 2025

GLM-V 프로젝트 상세 소개

프로젝트 개요

GLM-V는 Z.ai(智谱AI)가 오픈 소스로 공개한 다중 모달 시각 언어 모델 시리즈로, GLM-4.5V와 GLM-4.1V 두 가지 주요 모델을 포함합니다. 이 프로젝트는 복잡한 추론 작업에서 시각 언어 모델의 기술적 최전선을 탐구하고, 강화 학습 기술을 통해 모델의 다중 모달 이해 및 추론 능력을 크게 향상시키는 것을 목표로 합니다.

GitHub 주소: https://github.com/zai-org/GLM-V

핵심 기능

🚀 주요 능력

이미지 추론: 장면 이해, 복잡한 다중 이미지 분석, 공간 인식
비디오 이해: 긴 비디오 분할 및 이벤트 인식
GUI 작업: 화면 읽기, 아이콘 인식, 데스크톱 작업 지원
복잡한 차트 및 긴 문서 분석: 연구 보고서 분석, 정보 추출
정밀 위치 파악: 시각 요소의 정밀 위치 파악 능력

🧠 사고 모드 전환

모델은 사고 모드(Thinking Mode) 스위치를 도입하여 사용자가 빠른 응답과 심층 추론 사이에서 균형을 선택할 수 있도록 하며, 이는 GLM-4.5 언어 모델의 작동 방식과 동일합니다.

모델 아키텍처

GLM-4.5V

기본 모델: Z.ai의 차세대 플래그십 텍스트 기본 모델 GLM-4.5-Air 기반
매개변수 규모: 총 106B 매개변수, 12B 활성 매개변수
성능: 42개 공개 시각 언어 벤치마크에서 동급 규모 모델 중 SOTA 성능 달성
기술적 특징:
- 다양한 시각 콘텐츠 유형 지원
- 전 스펙트럼 시각 추론 능력
- 효율적인 하이브리드 훈련
- 실제 응용 시나리오에 중점

GLM-4.1V-9B-Thinking

기본 모델: GLM-4-9B-0414 기본 모델 기반
핵심 기술: 추론 패러다임 도입, RLCS(커리큘럼 샘플링을 통한 강화 학습) 사용
성능 우위:
- 10B급 VLM 중 최강 성능
- 18개 벤치마크 작업에서 72B 매개변수의 Qwen-2.5-VL과 동등하거나 능가
- 64k 컨텍스트 길이 지원
- 임의의 종횡비 및 최대 4k 이미지 해상도 지원
- 이중 언어(중국어 및 영어) 오픈 소스 버전

기술 혁신

추론 메커니즘

GLM-4.1V-9B-Thinking은 사고의 사슬(Chain-of-Thought) 추론 메커니즘을 통합하여 정확성, 풍부함 및 설명 가능성을 향상시켰습니다. 28개 벤치마크 작업 중 23개 작업에서 10B 매개변수 규모의 다른 모델들을 능가합니다.

강화 학습 훈련

모델은 확장 가능한 강화 학습 기술을 채택하여 RLCS 방법을 통해 모델 능력을 전반적으로 향상시켰으며, 특히 수학, 코드 및 논리 추론 작업에서 뛰어난 성능을 보입니다.

설치 및 사용

환경 요구 사항

NVIDIA GPU에 적합하며, Ascend NPU 추론을 지원합니다.

종속성 설치

SGLang 및 transformers의 경우:

pip install -r requirements.txt

vLLM의 경우:

pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview

추론 예시

vLLM 서비스 사용

vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'

SGLang 서비스 사용

python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0

Transformers 코드 예시

from transformers import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch

MODEL_PATH = "zai-org/GLM-4.5V"
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://example.com/image.png"
            },
            {
                "type": "text",
                "text": "describe this image"
            }
        ],
    }
]

processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype="auto",
    device_map="auto",
)

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
    generated_ids[0][inputs["input_ids"].shape[1]:], 
    skip_special_tokens=False
)
print(output_text)

미세 조정 지원

프로젝트는 LLaMA-Factory를 사용한 미세 조정을 지원합니다. 데이터셋 형식 예시:

[
    {
        "messages": [
            {
                "content": "<image>Who are they?",
                "role": "user"
            },
            {
                "content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
                "role": "assistant"
            }
        ],
        "images": [
            "mllm_demo_data/1.jpg"
        ]
    }
]

응용 예시

GUI 에이전트

프로젝트는 GUI 에이전트의 예시를 제공하며, 모바일, PC 및 웹 환경에서의 프롬프트 구성 및 출력 처리 전략을 보여줍니다.

데스크톱 도우미

수작업으로 제작된 데스크톱 도우미 애플리케이션을 오픈 소스로 공개했으며, GLM-4.5V에 연결하여 스크린샷 또는 화면 녹화를 통해 PC 화면의 시각 정보를 캡처할 수 있습니다.

VLM 보상 시스템

GLM-4.1V-Thinking 훈련에 사용된 VLM 보상 시스템을 오픈 소스로 공개했으며, 로컬에서 실행할 수 있습니다:

python examples/reward_system_demo.py

성능

벤치마크 결과

GLM-4.5V는 42개 공개 시각 언어 벤치마크에서 동급 규모 모델 중 SOTA 성능 달성
GLM-4.1V-9B-Thinking은 28개 벤치마크 작업 중 23개에서 동급 매개변수 규모 모델을 능가
18개 벤치마크 작업에서 72B 매개변수의 Qwen-2.5-VL-72B와 동등하거나 능가

최적화 개선 사항

GLM-4.1V 출시 이후, 팀은 많은 커뮤니티 피드백 문제를 해결했습니다. GLM-4.5V에서는 반복적 사고 및 출력 형식 오류와 같은 일반적인 문제가 완화되었습니다.

커뮤니티 및 지원

온라인 체험: chat.z.ai
API 인터페이스: Z.ai API 플랫폼
Hugging Face: GLM-4.5V, GLM-4.1V-9B-Thinking
Discord 커뮤니티: 토론 참여

GLM-V 프로젝트는 오픈 소스 다중 모달 AI의 중요한 진전을 나타내며, 연구자와 개발자에게 강력한 시각 언어 이해 및 추론 도구를 제공하여 다중 모달 에이전트 및 복잡한 시각 추론 응용 프로그램의 발전을 촉진합니다.