ComfyUI용 WanVideo 모델 래퍼로, 알리바바 WanVideo 2.1 시리즈 AI 비디오 생성 모델을 지원합니다.
ComfyUI-WanVideoWrapper 프로젝트 상세 소개
프로젝트 개요
ComfyUI-WanVideoWrapper는 ComfyUI 플랫폼을 위해 특별히 개발된 래퍼 플러그인으로, 주로 WanVideo 및 관련 모델을 지원하는 데 사용됩니다. 이 프로젝트는 kijai가 개발 및 유지보수하며, 새로운 AI 비디오 생성 모델 및 기능을 빠르게 테스트하고 구현하기 위한 실험적인 "샌드박스" 환경으로 활용됩니다.
프로젝트 배경
ComfyUI 핵심 코드의 복잡성과 개발자의 코딩 경험 부족으로 인해, 많은 경우 독립적인 래퍼에서 새로운 모델과 기능을 구현하는 것이 핵심 시스템에 직접 구현하는 것보다 더 쉽고 빠릅니다. 이 프로젝트는 이러한 아이디어를 바탕으로 탄생했습니다.
설계 철학
- 빠른 테스트 플랫폼: 새로운 기능의 빠른 검증 환경
- 개인 샌드박스: 모든 사람이 사용할 수 있는 실험 플랫폼
- 호환성 문제 방지: 독립적으로 실행되어 주 시스템 안정성에 영향 없음
- 지속적인 개발: 코드는 항상 개발 상태에 있으며, 문제가 발생할 수 있음
핵심 기능
지원하는 WanVideo 모델 시리즈
이 래퍼는 주로 알리바바가 오픈소스화한 Wan 2.1 시리즈 모델을 지원하며, 이는 선도적인 성능을 자랑하는 고급 비디오 생성 모델입니다.
Wan 2.1 모델 특징:
- 고성능: 여러 벤치마크에서 기존 오픈소스 모델 및 최첨단 상용 솔루션을 지속적으로 능가
- 이중 언어 텍스트 생성: 중국어 및 영어 텍스트를 생성할 수 있는 최초의 비디오 모델로, 강력한 텍스트 생성 능력 보유
- 다중 해상도 지원: 480P 및 720P 비디오 생성 지원
- 물리 시뮬레이션: 실제 세계의 물리적 효과와 현실적인 객체 상호작용을 정확하게 시뮬레이션하는 비디오 생성
모델 사양:
T2V-1.3B 모델:
- 8.19 GB VRAM만 필요하여 거의 모든 소비자용 GPU와 호환
- RTX 4090에서 약 4분 만에 5초 길이의 480P 비디오 생성 가능
- 경량으로 일반 사용자에게 적합
T2V-14B/I2V-14B 모델:
- 오픈소스 및 비공개 모델 모두에서 SOTA(State-Of-The-Art) 성능 달성
- 복잡한 시각적 장면 및 움직임 패턴 지원
- 전문가용 애플리케이션에 적합
주요 기능 모듈
- 텍스트-비디오 변환 (Text-to-Video)
- 이미지-비디오 변환 (Image-to-Video)
- 비디오 편집
- 텍스트-이미지 변환
- 비디오-오디오 변환
기술 아키텍처
핵심 기술 구성 요소
Wan2.1은 주류 확산 트랜스포머 패러다임을 기반으로 설계되었으며, 일련의 혁신을 통해 생성 능력을 크게 향상시켰습니다.
- Wan-VAE: 비디오 생성을 위해 특별히 설계된 새로운 3D 인과 VAE 아키텍처로, 다양한 전략을 통해 시공간 압축을 개선하고 메모리 사용량을 줄이며 시간적 인과성을 보장합니다.
- 확장 가능한 훈련 전략
- 대규모 데이터 구축
- 자동화된 평가 지표
성능 특징
- 메모리 효율성: Wan-VAE는 과거 시간 정보를 손실 없이 무한 길이의 1080P 비디오를 인코딩 및 디코딩할 수 있습니다.
- GPU 호환성: 소비자용 GPU 실행 지원
- 처리 능력: 장편 비디오 생성 및 복잡한 장면 처리 지원
설치 및 사용
설치 단계
- 저장소 복제:
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
- 의존성 설치:
pip install -r requirements.txt
포터블 설치의 경우:
python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
모델 다운로드
주요 모델 다운로드 주소:
- 표준 모델: https://huggingface.co/Kijai/WanVideo_comfy/tree/main
- FP8 최적화 모델 (권장): https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled
모델 파일 구조
다운로드한 모델 파일을 해당 ComfyUI 디렉토리에 배치합니다:
- Text encoders →
ComfyUI/models/text_encoders
- Clip vision →
ComfyUI/models/clip_vision
- Transformer (주요 비디오 모델) →
ComfyUI/models/diffusion_models
- VAE →
ComfyUI/models/vae
지원되는 확장 모델
이 래퍼는 여러 관련 AI 비디오 생성 모델도 지원합니다:
- SkyReels: Skywork에서 개발한 비디오 생성 모델
- WanVideoFun: 알리바바 PAI 팀에서 개발한 엔터테인먼트 지향 모델
- ReCamMaster: 콰이쇼우 VGI에서 개발한 비디오 재구성 모델
- VACE: 알리바바 비전 랩의 비디오 향상 모델
- Phantom: 바이트댄스 연구소의 다중 주체 비디오 생성 모델
- ATI: 바이트댄스 연구소의 주의 전달 모델
- Uni3C: 알리바바 다모 아카데미의 통합 비디오 이해 모델
- EchoShot: 다중 샷 인물 비디오 생성 모델
- MultiTalk: 다자간 대화 비디오 생성 모델
적용 사례 및 예시
장편 비디오 생성 테스트
- 1025 프레임 테스트: 81프레임 창 크기, 16프레임 오버랩 사용
- 1.3B T2V 모델: 5090 그래픽 카드에서 5GB 미만의 VRAM 사용, 생성 시간 10분
- 메모리 최적화: 512x512x81 사양에서 약 16GB 메모리 사용, 20/40 블록 오프로드 지원
TeaCache 가속 최적화
- 새 버전 임계값 설정은 원래의 10배여야 함
- 권장 계수 범위: 0.25-0.30
- 시작 단계는 0부터 시작 가능
- 더 공격적인 임계값은 초기 단계 건너뛰기를 피하기 위해 나중에 시작하는 것이 좋음
기술적 장점
- 오픈소스 생태계: 소스 코드 및 모든 모델을 포함한 완전한 오픈소스
- 선도적인 성능: 여러 내부 및 외부 벤치마크에서 기존 오픈소스 모델 및 최첨단 상용 솔루션을 항상 능가
- 포괄적인 범위: 이미지-비디오 변환, 지시 기반 비디오 편집 및 개인 비디오 생성을 포함한 여러 다운스트림 애플리케이션을 포괄하며 최대 8가지 작업 지원
- 소비자 친화적: 1.3B 모델은 8.19GB VRAM만 필요하여 광범위한 소비자용 GPU와 호환되는 탁월한 자원 효율성 제공
프로젝트 현황 및 발전
향후 발전 방향
- 네이티브 워크플로우와 경쟁하거나 대안을 제공하기 위한 것이 아님
- 궁극적인 목표는 새로 출시된 모델과 기능을 탐색하는 데 도움을 주는 것
- 일부 기능은 ComfyUI 핵심 시스템에 통합될 수 있음
사용 권장 사항
적용 시나리오
- AI 비디오 생성 연구 및 실험
- 새 모델의 빠른 테스트 및 검증
- 창의적인 비디오 콘텐츠 제작
- 교육 및 학습 목적
주의 사항
- 코드는 지속적인 개발 상태에 있으며, 안정성 문제가 발생할 수 있음
- 독립적인 환경에서 테스트 사용을 권장
- 일정 수준의 기술 배경 및 GPU 자원 필요
요약
ComfyUI-WanVideoWrapper는 혁신적인 AI 비디오 생성 도구 래퍼로, 사용자에게 최신 비디오 생성 기술에 접근할 수 있는 편리한 방법을 제공합니다. 알리바바가 오픈소스화한 Wan 2.1 시리즈 모델을 기반으로 하는 이 프로젝트는 기술적 선도성을 유지하면서도 오픈소스 커뮤니티의 협력 정신을 보여줍니다. 프로젝트는 아직 개발 중이지만, 강력한 기능과 광범위한 모델 지원으로 AI 비디오 생성 분야에서 중요한 도구가 될 것입니다.