교차 샷 일관성을 갖춘 일관된 멀티샷 장편 서사 비디오를 생성하기 위한 메모리 조건부 비디오 생성 프레임워크

NOASSERTIONPythonStoryMemKevin-thu 0.6k Last Updated: December 26, 2025

StoryMem: 메모리를 활용한 멀티샷 장편 영상 스토리텔링

개요

StoryMem은 난양 기술 대학교(NTU) S-Lab과 ByteDance 연구원들이 개발한 최첨단 AI 프레임워크로, 시네마틱 품질의 일관된 멀티샷 내러티브 영상을 가능하게 하여 장편 영상 생성을 혁신합니다. 이 시스템은 AI 영상 생성의 근본적인 과제인 긴 스토리텔링 시나리오에서 여러 샷에 걸쳐 시각적 일관성과 내러티브 일관성을 유지하는 문제를 해결합니다.

핵심 혁신

메모리-투-비디오(M2V) 패러다임

이 프로젝트는 사전 훈련된 단일샷 영상 확산 모델을 멀티샷 스토리텔러로 변환하는 새로운 메모리-투-비디오(M2V) 설계를 도입합니다. 이 패러다임은 인간의 기억 메커니즘에서 영감을 받아 명시적인 시각적 메모리에 조건화된 반복적인 샷 합성을 통해 장편 영상 스토리텔링을 재구성합니다.

주요 기술 구성 요소

  1. 동적 메모리 뱅크: 이전에 생성된 샷에서 추출된 주요 프레임의 간결하고 동적으로 업데이트되는 메모리 뱅크를 유지합니다.
  2. 메모리 주입: 저장된 메모리는 잠재적 연결 및 음수 RoPE(회전 위치 임베딩) 이동을 통해 단일샷 영상 확산 모델에 주입됩니다.
  3. LoRA 미세 조정: Low-Rank Adaptation(LoRA) 미세 조정만으로 효율적인 적응을 달성합니다.
  4. 의미론적 주요 프레임 선택: 생성 전반에 걸쳐 유익하고 안정적인 메모리를 보장하기 위해 미적 선호도 필터링을 갖춘 지능적인 주요 프레임 선택 전략을 사용합니다.

기술 아키텍처

기본 모델

StoryMem은 Wan2.2 영상 생성 프레임워크를 기반으로 합니다.

  • Wan2.2 T2V-A14B: 텍스트-투-비디오 MoE(전문가 혼합) 모델
  • Wan2.2 I2V-A14B: 이미지-투-비디오 MoE 모델
  • StoryMem M2V LoRA: 메모리 조건부 미세 조정된 모델

생성 파이프라인

시스템은 반복적인 프로세스를 통해 작동합니다.

  1. 초기 샷 생성: T2V 모델을 사용하여 초기 메모리로 첫 번째 샷을 생성합니다.
  2. 반복적 샷 합성: 메모리 뱅크에 조건화하여 후속 샷을 생성합니다.
  3. 주요 프레임 추출: 생성된 각 샷에서 주요 프레임을 자동으로 추출합니다.
  4. 메모리 업데이트: 다음 반복을 위해 새 주요 프레임으로 메모리 뱅크를 업데이트합니다.
  5. 샷 간 일관성: 캐릭터 외형, 장면 요소 및 내러티브 흐름을 유지합니다.

고급 기능

MI2V (메모리 + 이미지-투-비디오)

장면 전환이 의도되지 않은 경우 메모리와 다음 샷의 첫 번째 프레임 모두에 조건화하여 인접한 샷 간의 부드러운 전환을 가능하게 합니다. 이는 내러티브 흐름에서 끊김 없는 연속성을 만듭니다.

MM2V (메모리 + 모션-투-비디오)

첫 5개의 모션 프레임으로 메모리 조건화를 지원하여 시간적 모션 정보를 통합하여 더욱 부드러운 샷 전환을 제공합니다.

MR2V (메모리 + 참조-투-비디오)

사용자가 참조 이미지를 초기 메모리로 제공할 수 있도록 하여 처음부터 특정 캐릭터나 배경으로 맞춤형 스토리 생성을 가능하게 합니다.

ST-Bench: 평가 벤치마크

포괄적인 평가를 촉진하기 위해 연구원들은 다음을 포함하는 다양한 멀티샷 영상 스토리텔링 벤치마크인 ST-Bench를 도입했습니다.

  • 다양한 스타일을 아우르는 30개의 긴 스토리 스크립트
  • 스토리당 8-12개의 샷 수준 텍스트 프롬프트
  • 캐릭터, 장면, 역학, 샷 유형 및 카메라 움직임을 설명하는 총 300개의 상세 영상 프롬프트
  • 올바른 샷 전환 처리를 위한 장면 전환 표시기

성능 성과

StoryMem은 기존 방법보다 상당한 개선을 보여줍니다.

  • 강력한 기준선 대비 샷 간 일관성에서 28.7% 향상
  • 우수한 시각적 품질: 높은 미적 기준과 프롬프트 준수를 유지합니다.
  • 효율적인 생성: 멀티샷 출력을 위한 단일샷 계산 비용
  • 분 단위 영상: 60초를 초과하는 일관된 내러티브 생성 가능

기술 사양

시스템 요구 사항

  • Python 3.11
  • CUDA 호환 GPU
  • Flash Attention 지원
  • 영상 확산 모델을 위한 충분한 VRAM

주요 매개변수

  • 출력 해상도: 기본 832×480, 구성 가능
  • 최대 메모리 크기: 기본 10샷, 조정 가능
  • 메모리 관리: 의미론적 필터링을 통한 동적 업데이트
  • 무작위 시드: 재현 가능한 생성 지원

사용 사례 및 응용

  1. 내러티브 영상 제작: 여러 장면으로 구성된 완전한 스토리 생성
  2. 캐릭터 일관성 콘텐츠: 긴 시퀀스에 걸쳐 캐릭터 정체성 유지
  3. 맞춤형 스토리텔링: 참조 이미지를 사용하여 개인화된 내러티브 생성
  4. 시네마틱 프로덕션: 전문적인 샷 구성 및 전환으로 영상 제작
  5. 교육 콘텐츠: 순차적인 장면으로 설명 영상 생성

연구 영향

이 프레임워크는 다음과 같은 점에서 AI 영상 생성의 상당한 발전을 나타냅니다.

  • 단일샷 품질과 멀티샷 일관성 간의 격차 해소
  • 시간적 일관성을 위한 실용적인 메모리 메커니즘 도입
  • LoRA를 통한 효율적인 미세 조정 접근 방식 제공
  • ST-Bench를 통한 평가 표준 수립
  • 접근 가능한 장편 영상 제작 가능

구현 세부 정보

스토리 스크립트 형식

시스템은 다음과 같은 JSON 형식의 스토리 스크립트를 사용합니다.

  • story_overview: 내러티브 요약
  • scene_num: 순차적 장면 인덱싱
  • cut: 장면 전환 표시기(True/False)
  • video_prompts: 샷 수준 텍스트 설명

생성 워크플로우

  1. 기본 모델(T2V/I2V) 및 LoRA 가중치 로드
  2. 샷 설명과 함께 스토리 스크립트 파싱
  3. 초기 샷 생성 또는 참조 이미지 로드
  4. 반복 생성 루프 진입
  5. 주요 프레임 추출 및 필터링
  6. 메모리 뱅크 업데이트
  7. 메모리에 조건화하여 다음 샷 생성
  8. 스토리 완료까지 반복

향후 방향

이 프레임워크는 다음과 같은 경로를 열어줍니다.

  • 확장된 영상 길이 기능
  • 향상된 캐릭터 맞춤 설정
  • 개선된 시간적 일관성 메커니즘
  • 다중 캐릭터 스토리 처리
  • 대화형 스토리텔링 응용

인용

@article{zhang2025storymem,
  title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
  author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and 
          Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and 
          Kang, Hao and Lu, Xin and Pan, Xingang},
  journal={arXiv preprint},
  volume={arXiv:2512.19539},
  year={2025}
}

리소스

감사

StoryMem은 Wan2.2 프레임워크를 기반으로 하며 NTU S-Lab과 ByteDance 간의 협력 연구를 대표하여 AI 기반 영상 스토리텔링의 최첨단 기술을 발전시킵니다.

Star History Chart