교차 샷 일관성을 갖춘 일관된 멀티샷 장편 서사 비디오를 생성하기 위한 메모리 조건부 비디오 생성 프레임워크
StoryMem: 메모리를 활용한 멀티샷 장편 영상 스토리텔링
개요
StoryMem은 난양 기술 대학교(NTU) S-Lab과 ByteDance 연구원들이 개발한 최첨단 AI 프레임워크로, 시네마틱 품질의 일관된 멀티샷 내러티브 영상을 가능하게 하여 장편 영상 생성을 혁신합니다. 이 시스템은 AI 영상 생성의 근본적인 과제인 긴 스토리텔링 시나리오에서 여러 샷에 걸쳐 시각적 일관성과 내러티브 일관성을 유지하는 문제를 해결합니다.
핵심 혁신
메모리-투-비디오(M2V) 패러다임
이 프로젝트는 사전 훈련된 단일샷 영상 확산 모델을 멀티샷 스토리텔러로 변환하는 새로운 메모리-투-비디오(M2V) 설계를 도입합니다. 이 패러다임은 인간의 기억 메커니즘에서 영감을 받아 명시적인 시각적 메모리에 조건화된 반복적인 샷 합성을 통해 장편 영상 스토리텔링을 재구성합니다.
주요 기술 구성 요소
- 동적 메모리 뱅크: 이전에 생성된 샷에서 추출된 주요 프레임의 간결하고 동적으로 업데이트되는 메모리 뱅크를 유지합니다.
- 메모리 주입: 저장된 메모리는 잠재적 연결 및 음수 RoPE(회전 위치 임베딩) 이동을 통해 단일샷 영상 확산 모델에 주입됩니다.
- LoRA 미세 조정: Low-Rank Adaptation(LoRA) 미세 조정만으로 효율적인 적응을 달성합니다.
- 의미론적 주요 프레임 선택: 생성 전반에 걸쳐 유익하고 안정적인 메모리를 보장하기 위해 미적 선호도 필터링을 갖춘 지능적인 주요 프레임 선택 전략을 사용합니다.
기술 아키텍처
기본 모델
StoryMem은 Wan2.2 영상 생성 프레임워크를 기반으로 합니다.
- Wan2.2 T2V-A14B: 텍스트-투-비디오 MoE(전문가 혼합) 모델
- Wan2.2 I2V-A14B: 이미지-투-비디오 MoE 모델
- StoryMem M2V LoRA: 메모리 조건부 미세 조정된 모델
생성 파이프라인
시스템은 반복적인 프로세스를 통해 작동합니다.
- 초기 샷 생성: T2V 모델을 사용하여 초기 메모리로 첫 번째 샷을 생성합니다.
- 반복적 샷 합성: 메모리 뱅크에 조건화하여 후속 샷을 생성합니다.
- 주요 프레임 추출: 생성된 각 샷에서 주요 프레임을 자동으로 추출합니다.
- 메모리 업데이트: 다음 반복을 위해 새 주요 프레임으로 메모리 뱅크를 업데이트합니다.
- 샷 간 일관성: 캐릭터 외형, 장면 요소 및 내러티브 흐름을 유지합니다.
고급 기능
MI2V (메모리 + 이미지-투-비디오)
장면 전환이 의도되지 않은 경우 메모리와 다음 샷의 첫 번째 프레임 모두에 조건화하여 인접한 샷 간의 부드러운 전환을 가능하게 합니다. 이는 내러티브 흐름에서 끊김 없는 연속성을 만듭니다.
MM2V (메모리 + 모션-투-비디오)
첫 5개의 모션 프레임으로 메모리 조건화를 지원하여 시간적 모션 정보를 통합하여 더욱 부드러운 샷 전환을 제공합니다.
MR2V (메모리 + 참조-투-비디오)
사용자가 참조 이미지를 초기 메모리로 제공할 수 있도록 하여 처음부터 특정 캐릭터나 배경으로 맞춤형 스토리 생성을 가능하게 합니다.
ST-Bench: 평가 벤치마크
포괄적인 평가를 촉진하기 위해 연구원들은 다음을 포함하는 다양한 멀티샷 영상 스토리텔링 벤치마크인 ST-Bench를 도입했습니다.
- 다양한 스타일을 아우르는 30개의 긴 스토리 스크립트
- 스토리당 8-12개의 샷 수준 텍스트 프롬프트
- 캐릭터, 장면, 역학, 샷 유형 및 카메라 움직임을 설명하는 총 300개의 상세 영상 프롬프트
- 올바른 샷 전환 처리를 위한 장면 전환 표시기
성능 성과
StoryMem은 기존 방법보다 상당한 개선을 보여줍니다.
- 강력한 기준선 대비 샷 간 일관성에서 28.7% 향상
- 우수한 시각적 품질: 높은 미적 기준과 프롬프트 준수를 유지합니다.
- 효율적인 생성: 멀티샷 출력을 위한 단일샷 계산 비용
- 분 단위 영상: 60초를 초과하는 일관된 내러티브 생성 가능
기술 사양
시스템 요구 사항
- Python 3.11
- CUDA 호환 GPU
- Flash Attention 지원
- 영상 확산 모델을 위한 충분한 VRAM
주요 매개변수
- 출력 해상도: 기본 832×480, 구성 가능
- 최대 메모리 크기: 기본 10샷, 조정 가능
- 메모리 관리: 의미론적 필터링을 통한 동적 업데이트
- 무작위 시드: 재현 가능한 생성 지원
사용 사례 및 응용
- 내러티브 영상 제작: 여러 장면으로 구성된 완전한 스토리 생성
- 캐릭터 일관성 콘텐츠: 긴 시퀀스에 걸쳐 캐릭터 정체성 유지
- 맞춤형 스토리텔링: 참조 이미지를 사용하여 개인화된 내러티브 생성
- 시네마틱 프로덕션: 전문적인 샷 구성 및 전환으로 영상 제작
- 교육 콘텐츠: 순차적인 장면으로 설명 영상 생성
연구 영향
이 프레임워크는 다음과 같은 점에서 AI 영상 생성의 상당한 발전을 나타냅니다.
- 단일샷 품질과 멀티샷 일관성 간의 격차 해소
- 시간적 일관성을 위한 실용적인 메모리 메커니즘 도입
- LoRA를 통한 효율적인 미세 조정 접근 방식 제공
- ST-Bench를 통한 평가 표준 수립
- 접근 가능한 장편 영상 제작 가능
구현 세부 정보
스토리 스크립트 형식
시스템은 다음과 같은 JSON 형식의 스토리 스크립트를 사용합니다.
- story_overview: 내러티브 요약
- scene_num: 순차적 장면 인덱싱
- cut: 장면 전환 표시기(True/False)
- video_prompts: 샷 수준 텍스트 설명
생성 워크플로우
- 기본 모델(T2V/I2V) 및 LoRA 가중치 로드
- 샷 설명과 함께 스토리 스크립트 파싱
- 초기 샷 생성 또는 참조 이미지 로드
- 반복 생성 루프 진입
- 주요 프레임 추출 및 필터링
- 메모리 뱅크 업데이트
- 메모리에 조건화하여 다음 샷 생성
- 스토리 완료까지 반복
향후 방향
이 프레임워크는 다음과 같은 경로를 열어줍니다.
- 확장된 영상 길이 기능
- 향상된 캐릭터 맞춤 설정
- 개선된 시간적 일관성 메커니즘
- 다중 캐릭터 스토리 처리
- 대화형 스토리텔링 응용
인용
@article{zhang2025storymem,
title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and
Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and
Kang, Hao and Lu, Xin and Pan, Xingang},
journal={arXiv preprint},
volume={arXiv:2512.19539},
year={2025}
}
리소스
- 논문: arXiv:2512.19539
- 프로젝트 페이지: kevin-thu.github.io/StoryMem
- 코드 저장소: GitHub - Kevin-thu/StoryMem
- 모델 가중치: Hugging Face - Kevin-thu/StoryMem
감사
StoryMem은 Wan2.2 프레임워크를 기반으로 하며 NTU S-Lab과 ByteDance 간의 협력 연구를 대표하여 AI 기반 영상 스토리텔링의 최첨단 기술을 발전시킵니다.