실용적인 비디오 확산 모델로, 프레임 컨텍스트 압축을 통해 일정한 VRAM 점유율을 유지하며 6GB VRAM만으로 최대 60초 분량의 고품질 비디오를 생성할 수 있습니다.
FramePack - 실용적인 비디오 확산 모델
프로젝트 개요
FramePack은 실용적인 비디오 생성을 위해 설계된 획기적인 다음 프레임 예측 신경망 구조입니다. 스탠퍼드 대학교와 MIT 연구팀이 개발한 이 프로젝트는 비디오 확산 모델을 이미지 확산 모델처럼 경량화하고 사용하기 쉽게 만드는 것을 목표로 합니다.
핵심 기능
1. 일정한 그래픽 메모리 사용량 (O(1) 메모리 복잡도)
FramePack의 가장 큰 혁신은 입력 프레임 컨텍스트를 일정한 길이로 압축하여 생성 작업량이 비디오 길이에 관계없이 일정하게 유지된다는 점입니다. 이는 다음을 의미합니다:
- 6GB의 그래픽 메모리만으로 60초(1800프레임, 30fps) 비디오 생성 가능
- 1초 비디오와 1분 비디오 생성에 동일한 그래픽 메모리 소모
- 노트북 GPU(예: RTX 3060/3070Ti)에서 13B 파라미터 모델 실행 지원
- 이미지 확산 훈련과 유사하게 배치 크기 64(단일 8×A100/H100 노드)까지 훈련 가능
2. 프레임 컨텍스트 압축 기술
FramePack은 가변 패치 크기(variable patch size)를 사용하여 각 과거 프레임을 토큰화하고, 프레임의 중요도에 따라 다른 컨텍스트 길이를 할당합니다:
- 시간 근접성 가중치: 현재 프레임에 가까울수록 더 긴 컨텍스트 할당
- 특징 유사성 가중치: 현재 내용과 관련된 프레일수록 더 많은 세부 정보 유지
- 하이브리드 측정: 위 두 가지 전략을 결합하여 압축 효과 최적화
예시: HunyuanVideo에서 480p 프레임은 일반적으로 (1, 2, 2) 패치 커널을 사용하여 1536개의 토큰을 생성합니다.
3. 드리프트 방지 기술 (Anti-Drifting)
FramePack은 자기회귀 비디오 생성에서 발생하는 오류 누적 문제에 대해 여러 가지 드리프트 방지 방법을 제안합니다:
FramePack-F1 (순방향 생성 버전)
- 단일 순방향 프레임 예측
- 실시간 스트리밍 시나리오에 적합
- 새로운 드리프트 방지 정규화를 통해 오류 누적 방지
FramePack-P1 (계획 생성 버전))
두 가지 핵심 설계 포함:
a) 계획형 드리프트 방지 (Planned Anti-Drifting)
- 먼저 원거리의 키프레임 엔드포인트 생성
- 그 다음 중간 구간 채우기
- 프레임이 계획된 엔드포인트 사이에서 벗어나지 않도록 보장
b) 히스토리 이산화 (History Discretization)
- 모든 과거 프레임을 이산화 토큰으로 변환 (전체 데이터셋에 K-Means 적용)
- 훈련과 추론 간의 히스토리 표현 차이 감소
- 엔드포인트 자체의 드리프트 방지
4. 양방향 샘플링 전략
- 종료 프레임에서 시작 프레임으로 역방향 생성 지원
- 시작 및 종료 프레임 앵커를 결합한 양방향 컨텍스트
- 인과 예측 체인을 깨뜨려 관찰 편향 효과적으로 감소
성능
생성 속도
- RTX 4090 데스크톱:
- 최적화 전: 2.5초/프레임
- teacache 사용 시: 1.5초/프레임
- 노트북 GPU (3070Ti/3060): RTX 4090보다 약 4-8배 느림
- 실시간 시각 피드백 지원 (다음 프레임 예측 기능)
그래픽 메모리 요구 사항
- 최소: 6GB VRAM
- 권장: RTX 30XX/40XX/50XX 시리즈 (fp16 및 bf16 지원)
- 운영 체제: Windows 또는 Linux
훈련 효율성
- 단일 8×A100-80G 노드에서 배치 크기 64 달성 가능
- 480p 해상도, 13B HunyuanVideo 모델, LoRA 훈련
- 윈도우 크기 2 또는 3일 때 배치 크기 64, 윈도우 크기 4 또는 5일 때 배치 크기 32
- 개인 또는 연구실 규모 훈련에 적합
사용 방법
Windows 설치 (원클릭 패키지)
- 원클릭 설치 패키지 다운로드:
https://github.com/lllyasviel/FramePack/releases/download/windows/framepack_cu126_torch26.7z
파일 압축 해제
업데이트 스크립트 실행:
update.bat
- 프로그램 시작:
run.bat
참고: 첫 실행 시 HuggingFace에서 30GB 이상의 모델 파일을 다운로드해야 합니다.
Linux 설치
Python 3.10 환경 필요:
# PyTorch 설치
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
# 의존성 설치
pip install -r requirements.txt
# GUI 시작
python demo_gradio.py
지원되는 명령줄 매개변수:
--share: 공용 링크 공유 활성화--port: 포트 번호 지정--server: 서버 주소 지정
선택적 가속 구성 요소
프로젝트는 다양한 어텐션 메커니즘 최적화를 지원합니다:
- PyTorch 어텐션 (기본값)
- xformers
- flash-attn
- sage-attention
sage-attention 설치 예시 (Linux):
pip install sageattention==1.0.6
사용자 인터페이스
기본 워크플로우
- 왼쪽 패널: 초기 이미지 업로드 및 프롬프트 작성
- 오른쪽 패널: 생성된 비디오 및 잠재 공간 미리보기 확인
- 진행률 표시: 각 클립의 진행률 바와 다음 클립의 잠재 미리보기 실시간 표시
비디오 생성 메커니즘
다음 프레임 세그먼트 예측 모델을 사용하므로 비디오는 세그먼트별로 생성됩니다:
- 초기에는 1초의 짧은 비디오만 보일 수 있습니다.
- 계속 기다리면 더 많은 클립이 순차적으로 생성됩니다.
- 최종적으로 완전한 길이의 비디오가 완성됩니다.
권장 워크플로우
빠른 프로토타입:
- teacache 가속 활성화
- 아이디어 및 프롬프트 신속 테스트
최종 출력:
- teacache 비활성화
- 전체 확산 프로세스를 사용하여 고품질 결과 얻기
참고: teacache, sage-attention, bnb 양자화, gguf 등 최적화 방법은 결과 품질에 영향을 미 미치므로 빠른 반복 시에만 사용하는 것이 좋습니다.
프롬프트 작성 팁
권장 형식
간결한 동작 지향 프롬프트가 가장 효과적입니다:
주체 + 동작 설명 + 기타 세부 정보
예시:
- "The girl dances gracefully, with clear movements, full of charm." (소녀가 우아하게 춤을 춘다, 명확한 움직임으로, 매력으로 가득 차 있다.)
- "The man dances powerfully, with clear movements, full of energy." (남자가 힘차게 춤을 춘다, 명확한 움직임으로, 에너지로 가득 차 있다.)
- "The woman spins elegantly among cherry blossoms, with flowing sleeves." (여자가 벚꽃 사이에서 우아하게 회전한다, 소매가 휘날리며.)
ChatGPT 프롬프트 생성 템플릿
다음 템플릿을 사용하여 ChatGPT가 프롬프트 생성을 돕도록 할 수 있습니다:
You are an assistant that writes short, motion-focused prompts for animating images.
When the user sends an image, respond with a single, concise prompt describing visual motion
(such as human activity, moving objects, or camera movements). Focus only on how the scene
could come alive and become dynamic using brief phrases.
Larger and more dynamic motions (like dancing, jumping, running, etc.) are preferred over
smaller or more subtle ones (like standing still, sitting, etc.).
Describe subject, then motion, then other things.
For example: "The girl dances gracefully, with clear movements, full of charm."
If there is something that can dance (like a man, girl, robot, etc.), then prefer to
describe it as dancing.
Stay in a loop: one image in, one motion prompt out. Do not explain, ask questions,
or generate multiple options.
버전 기록
2025년 7월 14일
- FramePack-P1의 순수 텍스트-비디오 드리프트 방지 스트레스 테스트 결과 업로드
- 참조 이미지 없이 일반적인 프롬프트 사용
2025년 6월 26일
- FramePack-P1 결과 시연 발표
- 계획형 드리프트 방지 및 히스토리 이산화 설계 도입
2025년 5월 3일
- FramePack-F1 순방향 생성 버전 발표
- 더 넓은 동적 범위와 적은 제약의 단방향 예측 제공
기술 아키텍처
기본 모델
FramePack은 기존 비디오 확산 모델과 결합하여 사용할 수 있습니다:
- HunyuanVideo: 주요 테스트 플랫폼 (개선 버전)
- Wan 2.1: 공식 Wan 모델 지원
모델 개선 (HunyuanVideo 버전)
- SigLip-Vision 모델(google/siglip-so400m-patch14-384)을 시각 인코더로 추가
- 텐센트 내부 MLLM에 대한 의존성 제거
- LLama3.1을 순수 텍스트 모델로 고정
- 고품질 데이터로 계속 훈련
아키텍처 호환성
- 텍스트-비디오(Text-to-Video) 및 이미지-비디오(Image-to-Video) 지원
- 아키텍처 수정 없이 두 모드를 자연스럽게 지원
- 기존 사전 훈련된 비디오 확산 모델 미세 조정 가능
응용 시나리오
1. 이미지-비디오 (Image-to-Video)
정적 이미지를 동적 비디오로 변환, 상세한 동작 설명 지원
2. 장편 비디오 생성
- 최대 60초 길이의 일관된 비디오 생성
- 수천 프레임 처리 능력 지원
- 시공간 일관성 유지
3. 프롬프트 트래블링 (Prompt Travelling)
F1 버전에 특히 적합하며, 비디오 생성 과정에서 프롬프트 점진적 변화 지원
4. 실시간 스트리밍
F1 버전은 스트리밍 생성을 지원하여 실시간 응용 시나리오에 적합
커뮤니티 리소스
ComfyUI 통합
- ComfyUI-FramePackWrapper: https://github.com/kijai/ComfyUI-FramePackWrapper
- ComfyUI_RH_FramePack: https://github.com/HM-RunningHub/ComfyUI_RH_FramePack
온라인 사용
- RunningHub 플랫폼에서 무료 온라인 사용 제공
- 사전 구성된 워크플로우 포함
중요 공지
공식 웹사이트 성명
유일한 공식 웹사이트: https://github.com/lllyasviel/FramePack
다음 도메인들은 모두 사칭 및 스팸 웹사이트이므로 방문하거나 결제하지 마십시오:
- framepack.co, frame_pack.co
- framepack.net, frame_pack.net
- framepack.ai, frame_pack.ai
- framepack.pro, frame_pack.pro
- framepack.cc, frame_pack.cc
- framepackai.co 및 기타 모든 변형
하드웨어 민감성
다음 프레임 세그먼트 예측 모델은 노이즈 및 하드웨어의 미묘한 차이에 매우 민감합니다:
- 다른 장치에서는 약간 다른 결과가 생성될 수 있습니다.
- 전반적인 시각적 효과는 유사하게 유지되어야 합니다.
- 특정 경우에는 완전히 동일한 결과를 얻을 수 있습니다.
성능 최적화 권장 사항
생성 속도가 참조 속도보다 현저히 느리다면:
- CUDA 및 PyTorch가 올바르게 설치되었는지 확인하십시오.
- GPU 드라이버가 최신 버전인지 확인하십시오.
- 불필요한 백그라운드 프로그램을 종료하십시오.
- Issue #151의 문제 해결 가이드를 참조하십시오.
인용 정보
연구에서 FramePack을 사용하신다면 다음 논문을 인용해 주십시오:
@inproceedings{zhang2025framepack,
title={Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models},
author={Lvmin Zhang and Shengqu Cai and Muyang Li and Gordon Wetzstein and Maneesh Agrawala},
booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems},
year={2025},
}
@article{zhang2025framepackv1,
title={Packing Input Frame Contexts in Next-Frame Prediction Models for Video Generation},
author={Lvmin Zhang and Maneesh Agrawala},
journal={Arxiv},
year={2025}
}
프로젝트 의의
FramePack은 혁신적인 프레임 컨텍스트 압축 및 드리프트 방지 기술을 통해 비디오 확산의 메모리 비용을 일정한 수준으로 성공적으로 낮춰, 소비자용 하드웨어에서 장편 비디오 생성을 가능하게 했습니다. 이 돌파구는 다음을 가능하게 합니다:
- 개인 창작자가 노트북에서 고품질 장편 비디오를 생성할 수 있게 합니다.
- 연구원이 연구실 규모의 장비에서 비디오 모델 훈련을 수행할 수 있게 합니다.
- 개발자가 비디오 생성 기능을 애플리케이션에 더 쉽게 통합할 수 있게 합니다.
FramePack은 Stable Diffusion이 이미지 생성을 손쉽게 만들었던 것처럼, 비디오 생성을 진정으로 실용화합니다.