세계 최초의 무한 길이 영화 생성 모델로, Diffusion Forcing 아키텍처를 채택하여 전문 영화 수준의 비디오를 생성합니다.

NOASSERTIONPythonSkyReels-V2SkyworkAI 4.4k Last Updated: August 11, 2025

SkyReels-V2: 무한 길이 영화 생성 모델

프로젝트 개요

SkyReels-V2는 SkyworkAI가 개발한 세계 최초의 무한 길이 영화 생성 모델로, 자기회귀 확산 강제(AutoRegressive Diffusion-Forcing) 아키텍처를 사용하여 공개적으로 사용 가능한 모델 중 SOTA(최첨단) 성능을 달성했습니다. 이 프로젝트는 이론적으로 무한 길이의 고품질 영화 수준 비디오 콘텐츠를 생성할 수 있는 비디오 생성 기술의 중대한 돌파구를 나타냅니다.

핵심 기술 특성

1. 확산 강제(Diffusion Forcing) 아키텍처

확산 강제(Diffusion Forcing)는 각 토큰에 독립적인 노이즈 수준을 할당하는 훈련 및 샘플링 전략입니다. 이를 통해 토큰은 임의의 토큰별 스케줄에 따라 노이즈 제거가 가능합니다. 개념적으로 이 방법은 부분 마스킹 형태와 유사합니다. 노이즈가 0인 토큰은 완전히 마스킹되지 않은 상태이며, 완전히 노이즈가 있는 토큰은 완전히 마스킹됩니다.

2. 다중 모달 기술 융합

이 방법은 다중 모달 대규모 언어 모델(MLLM), 다단계 사전 훈련, 강화 학습 및 확산 강제(Diffusion Forcing) 기술을 통합하여 종합적인 최적화를 달성합니다.

3. 비디오 캡션 생성기 (SkyCaptioner-V1)

SkyCaptioner-V1은 Qwen2.5-VL-7B-Instruct 기반 모델을 특정 도메인 비디오 캡션 작업에 맞게 미세 조정하여, 다양한 캡션 도메인에서 정확성 평가에서 가장 높은 평균 정확도를 달성했습니다.

모델 변형

프로젝트는 다양한 요구 사항을 충족하기 위해 여러 모델 변형을 제공합니다.

확산 강제(Diffusion Forcing) 모델 시리즈

  • SkyReels-V2-DF-1.3B-540P: 저파라미터 버전, 권장 해상도 544×960, 97프레임
  • SkyReels-V2-DF-14B-540P: 표준 버전, 540P 비디오 생성에 적합
  • SkyReels-V2-DF-14B-720P: 고해상도 버전, 720P 비디오 생성 지원

텍스트-비디오(T2V) 모델

  • SkyReels-V2-T2V-14B-540P: 텍스트-비디오 생성 전용
  • SkyReels-V2-T2V-14B-720P: 고해상도 텍스트-비디오 모델

이미지-비디오(I2V) 모델

  • SkyReels-V2-I2V-1.3B-540P: 경량 이미지-비디오 모델
  • SkyReels-V2-I2V-14B-540P: 표준 이미지-비디오 모델
  • SkyReels-V2-I2V-14B-720P: 고해상도 이미지-비디오 모델

기술 혁신점

1. 강화 학습 최적화

텍스트 정렬 및 비디오 품질과 같은 다른 지표의 저하를 피하기 위해, 팀은 선호도 데이터 쌍이 텍스트 정렬 및 비디오 품질 측면에서 비교 가능하며, 동작 품질만 다르도록 보장했습니다. 이 강화된 데이터셋을 활용하여, 먼저 쌍을 이룬 샘플 간의 일반적인 동작 품질 차이를 포착하는 전용 보상 모델을 훈련했습니다.

2. 다단계 훈련 프로세스

프로젝트는 4단계 훈련 강화 프로세스를 채택했습니다.

  • 초기 개념 균형 지도 미세 조정(SFT): 기준 품질 향상
  • 동작 특정 강화 학습(RL) 훈련: 동적 아티팩트 문제 해결
  • 확산 강제(Diffusion Forcing) 프레임워크: 긴 비디오 합성 구현
  • 최종 고품질 SFT: 시각적 충실도 정제

3. 해상도 점진적 훈련

540p 및 720p 해상도에 대한 두 가지 연속적인 고품질 지도 미세 조정(SFT) 단계를 구현했으며, 초기 SFT 단계는 사전 훈련 후 강화 학습 단계 이전에 즉시 진행됩니다.

성능 표현

수동 평가 결과

SkyReels-Bench 평가에서:

  • 텍스트-비디오 모델: 지시 준수(3.15)에서 우수한 성능을 보였고, 일관성(3.35)에서 경쟁 우위를 유지했습니다.
  • 이미지-비디오 모델: SkyReels-V2-I2V는 평균 3.29점을 기록하여 독점 모델인 Kling-1.6(3.4) 및 Runway-Gen4(3.39)와 견줄 만했습니다.

자동화 평가 결과

V-Bench 평가에서: SkyReels-V2는 HunyuanVideo-13B 및 Wan2.1-14B를 포함한 모든 비교 모델을 능가하여 가장 높은 총점(83.9%)과 품질 점수(84.7%)를 획득했습니다.

응용 시나리오

1. 스토리 생성

이론적으로 무한 길이의 서사적 비디오 콘텐츠를 생성할 수 있습니다.

2. 이미지-비디오 합성

정적 이미지를 동적 비디오 시퀀스로 변환합니다.

3. 카메라 디렉팅 기능

전문적인 카메라 움직임 및 구도 제어를 제공합니다.

4. 다중 객체 일관성 비디오 생성

SkyReels-A2 시스템을 통해 다중 요소 조합 비디오 생성을 구현합니다.

시스템 요구 사항

하드웨어 요구 사항

  • 1.3B 모델: 540P 비디오 생성에 약 14.7GB의 피크 VRAM 필요
  • 14B 모델: 540P 비디오 생성에 약 51.2GB의 피크 VRAM (확산 강제) 또는 43.4GB (T2V/I2V) 필요

소프트웨어 환경

  • Python 3.10.12
  • 단일 GPU 및 다중 GPU 추론 지원
  • xDiT USP 가속 추론 통합

설치 및 사용

기본 설치

# 클론 저장소
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2

# 의존성 설치
pip install -r requirements.txt

텍스트-비디오 생성 예시

model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

무한 길이 비디오 생성 예시

model_id=Skywork/SkyReels-V2-DF-14B-540P
# 동기식 추론으로 10초 비디오 생성
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

고급 기능

1. 비디오 확장

기존 비디오를 기반으로 확장하여 더 긴 비디오 콘텐츠를 구현할 수 있습니다.

2. 시작/종료 프레임 제어

비디오의 시작 프레임과 종료 프레임을 지정하여 정밀한 비디오 제어를 구현할 수 있습니다.

3. 프롬프트 인핸서

Qwen2.5-32B-Instruct 기반으로 구현된 프롬프트 인핸서 기능은 짧은 프롬프트를 더 상세한 설명으로 확장할 수 있습니다.

4. 다중 GPU 가속

xDiT USP를 통한 다중 GPU 병렬 추론을 지원하여 생성 속도를 크게 향상시킵니다.

관련 프로젝트

  • SkyReels-A2: 임의의 시각적 요소를 조합할 수 있는 제어 가능한 비디오 생성 프레임워크
  • SkyReels-V1: 최초의 오픈 소스 인간 중심 비디오 기반 모델
  • SkyCaptioner-V1: 전용 비디오 캡션 생성 모델

오픈 소스 정보

요약

SkyReels-V2는 AI 비디오 생성 기술, 특히 장편 비디오 합성 분야에서 중대한 돌파구를 나타냅니다. 기술적으로 혁신을 달성했을 뿐만 아니라, 드라마 제작 및 가상 전자상거래와 같은 창의적인 응용 분야에 새로운 가능성을 제공하며 제어 가능한 비디오 생성의 경계를 확장합니다.

Star History Chart