Kevin-thu/StoryMem View GitHub Homepage for Latest Official Releases

교차 샷 일관성을 갖춘 일관된 멀티샷 장편 서사 비디오를 생성하기 위한 메모리 조건부 비디오 생성 프레임워크

NOASSERTIONPythonStoryMemKevin-thu 0.6k Last Updated: January 22, 2026

StoryMem: 메모리를 활용한 멀티샷 장편 영상 스토리텔링

개요

StoryMem은 난양 기술 대학교(NTU) S-Lab과 ByteDance 연구원들이 개발한 최첨단 AI 프레임워크로, 시네마틱 품질의 일관된 멀티샷 내러티브 영상을 가능하게 하여 장편 영상 생성을 혁신합니다. 이 시스템은 AI 영상 생성의 근본적인 과제인 긴 스토리텔링 시나리오에서 여러 샷에 걸쳐 시각적 일관성과 내러티브 일관성을 유지하는 문제를 해결합니다.

핵심 혁신

메모리-투-비디오(M2V) 패러다임

이 프로젝트는 사전 훈련된 단일샷 영상 확산 모델을 멀티샷 스토리텔러로 변환하는 새로운 메모리-투-비디오(M2V) 설계를 도입합니다. 이 패러다임은 인간의 기억 메커니즘에서 영감을 받아 명시적인 시각적 메모리에 조건화된 반복적인 샷 합성을 통해 장편 영상 스토리텔링을 재구성합니다.

주요 기술 구성 요소

동적 메모리 뱅크: 이전에 생성된 샷에서 추출된 주요 프레임의 간결하고 동적으로 업데이트되는 메모리 뱅크를 유지합니다.
메모리 주입: 저장된 메모리는 잠재적 연결 및 음수 RoPE(회전 위치 임베딩) 이동을 통해 단일샷 영상 확산 모델에 주입됩니다.
LoRA 미세 조정: Low-Rank Adaptation(LoRA) 미세 조정만으로 효율적인 적응을 달성합니다.
의미론적 주요 프레임 선택: 생성 전반에 걸쳐 유익하고 안정적인 메모리를 보장하기 위해 미적 선호도 필터링을 갖춘 지능적인 주요 프레임 선택 전략을 사용합니다.

기술 아키텍처

기본 모델

StoryMem은 Wan2.2 영상 생성 프레임워크를 기반으로 합니다.

Wan2.2 T2V-A14B: 텍스트-투-비디오 MoE(전문가 혼합) 모델
Wan2.2 I2V-A14B: 이미지-투-비디오 MoE 모델
StoryMem M2V LoRA: 메모리 조건부 미세 조정된 모델

생성 파이프라인

시스템은 반복적인 프로세스를 통해 작동합니다.

초기 샷 생성: T2V 모델을 사용하여 초기 메모리로 첫 번째 샷을 생성합니다.
반복적 샷 합성: 메모리 뱅크에 조건화하여 후속 샷을 생성합니다.
주요 프레임 추출: 생성된 각 샷에서 주요 프레임을 자동으로 추출합니다.
메모리 업데이트: 다음 반복을 위해 새 주요 프레임으로 메모리 뱅크를 업데이트합니다.
샷 간 일관성: 캐릭터 외형, 장면 요소 및 내러티브 흐름을 유지합니다.

고급 기능

MI2V (메모리 + 이미지-투-비디오)

장면 전환이 의도되지 않은 경우 메모리와 다음 샷의 첫 번째 프레임 모두에 조건화하여 인접한 샷 간의 부드러운 전환을 가능하게 합니다. 이는 내러티브 흐름에서 끊김 없는 연속성을 만듭니다.

MM2V (메모리 + 모션-투-비디오)

첫 5개의 모션 프레임으로 메모리 조건화를 지원하여 시간적 모션 정보를 통합하여 더욱 부드러운 샷 전환을 제공합니다.

MR2V (메모리 + 참조-투-비디오)

사용자가 참조 이미지를 초기 메모리로 제공할 수 있도록 하여 처음부터 특정 캐릭터나 배경으로 맞춤형 스토리 생성을 가능하게 합니다.

ST-Bench: 평가 벤치마크

포괄적인 평가를 촉진하기 위해 연구원들은 다음을 포함하는 다양한 멀티샷 영상 스토리텔링 벤치마크인 ST-Bench를 도입했습니다.

다양한 스타일을 아우르는 30개의 긴 스토리 스크립트
스토리당 8-12개의 샷 수준 텍스트 프롬프트
캐릭터, 장면, 역학, 샷 유형 및 카메라 움직임을 설명하는 총 300개의 상세 영상 프롬프트
올바른 샷 전환 처리를 위한 장면 전환 표시기

성능 성과

StoryMem은 기존 방법보다 상당한 개선을 보여줍니다.

강력한 기준선 대비 샷 간 일관성에서 28.7% 향상
우수한 시각적 품질: 높은 미적 기준과 프롬프트 준수를 유지합니다.
효율적인 생성: 멀티샷 출력을 위한 단일샷 계산 비용
분 단위 영상: 60초를 초과하는 일관된 내러티브 생성 가능

기술 사양

시스템 요구 사항

Python 3.11
CUDA 호환 GPU
Flash Attention 지원
영상 확산 모델을 위한 충분한 VRAM

주요 매개변수

출력 해상도: 기본 832×480, 구성 가능
최대 메모리 크기: 기본 10샷, 조정 가능
메모리 관리: 의미론적 필터링을 통한 동적 업데이트
무작위 시드: 재현 가능한 생성 지원

사용 사례 및 응용

내러티브 영상 제작: 여러 장면으로 구성된 완전한 스토리 생성
캐릭터 일관성 콘텐츠: 긴 시퀀스에 걸쳐 캐릭터 정체성 유지
맞춤형 스토리텔링: 참조 이미지를 사용하여 개인화된 내러티브 생성
시네마틱 프로덕션: 전문적인 샷 구성 및 전환으로 영상 제작
교육 콘텐츠: 순차적인 장면으로 설명 영상 생성

연구 영향

이 프레임워크는 다음과 같은 점에서 AI 영상 생성의 상당한 발전을 나타냅니다.

단일샷 품질과 멀티샷 일관성 간의 격차 해소
시간적 일관성을 위한 실용적인 메모리 메커니즘 도입
LoRA를 통한 효율적인 미세 조정 접근 방식 제공
ST-Bench를 통한 평가 표준 수립
접근 가능한 장편 영상 제작 가능

구현 세부 정보

스토리 스크립트 형식

시스템은 다음과 같은 JSON 형식의 스토리 스크립트를 사용합니다.

story_overview: 내러티브 요약
scene_num: 순차적 장면 인덱싱
cut: 장면 전환 표시기(True/False)
video_prompts: 샷 수준 텍스트 설명

생성 워크플로우

기본 모델(T2V/I2V) 및 LoRA 가중치 로드
샷 설명과 함께 스토리 스크립트 파싱
초기 샷 생성 또는 참조 이미지 로드
반복 생성 루프 진입
주요 프레임 추출 및 필터링
메모리 뱅크 업데이트
메모리에 조건화하여 다음 샷 생성
스토리 완료까지 반복

향후 방향

이 프레임워크는 다음과 같은 경로를 열어줍니다.

확장된 영상 길이 기능
향상된 캐릭터 맞춤 설정
개선된 시간적 일관성 메커니즘
다중 캐릭터 스토리 처리
대화형 스토리텔링 응용

인용

@article{zhang2025storymem,
  title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
  author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and 
          Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and 
          Kang, Hao and Lu, Xin and Pan, Xingang},
  journal={arXiv preprint},
  volume={arXiv:2512.19539},
  year={2025}
}

리소스

논문: arXiv:2512.19539
프로젝트 페이지: kevin-thu.github.io/StoryMem
코드 저장소: GitHub - Kevin-thu/StoryMem
모델 가중치: Hugging Face - Kevin-thu/StoryMem

감사

StoryMem은 Wan2.2 프레임워크를 기반으로 하며 NTU S-Lab과 ByteDance 간의 협력 연구를 대표하여 AI 기반 영상 스토리텔링의 최첨단 기술을 발전시킵니다.