Gedächtnis-konditioniertes Videogenerierungs-Framework zur Erstellung kohärenter, mehrteiliger, langer narrativer Videos mit Shot-übergreifender Konsistenz

NOASSERTIONPythonStoryMemKevin-thu 0.6k Last Updated: December 26, 2025

StoryMem: Multi-shot Long Video Storytelling mit Gedächtnis

Übersicht

StoryMem ist ein hochmodernes KI-Framework, das von Forschern der Nanyang Technological University (NTU) S-Lab und ByteDance entwickelt wurde und die Generierung von Langform-Videos revolutioniert, indem es kohärente, Multi-Shot-Narrativ-Videos mit filmischer Qualität ermöglicht. Das System adressiert eine grundlegende Herausforderung bei der KI-Videogenerierung: die Aufrechterhaltung der visuellen Konsistenz und der narrativen Kohärenz über mehrere Aufnahmen hinweg in erweiterten Erzählszenarien.

Kerninnovation

Memory-to-Video (M2V) Paradigma

Das Projekt stellt ein neuartiges Memory-to-Video (M2V) Design vor, das vortrainierte Single-Shot-Video-Diffusionsmodelle in Multi-Shot-Erzähler verwandelt. Dieses Paradigma formuliert die Langform-Videoerzählung als iterative Shot-Synthese, die auf explizitem visuellen Gedächtnis basiert und von menschlichen Gedächtnismechanismen inspiriert ist.

Wichtige technische Komponenten

  1. Dynamische Speicherbank: Behält eine kompakte, dynamisch aktualisierte Speicherbank von Keyframes bei, die aus zuvor generierten Aufnahmen extrahiert wurden.
  2. Speicherinjektion: Gespeicherter Speicher wird über latente Konkatenation und negative RoPE (Rotary Position Embedding) Verschiebungen in Single-Shot-Video-Diffusionsmodelle injiziert.
  3. LoRA Fine-tuning: Erzielt eine effiziente Anpassung mit nur Low-Rank Adaptation (LoRA) Fine-tuning.
  4. Semantische Keyframe-Auswahl: Verwendet eine intelligente Keyframe-Auswahlstrategie mit ästhetischer Präferenzfilterung, um informativen und stabilen Speicher während der Generierung zu gewährleisten.

Technische Architektur

Basismodelle

StoryMem baut auf dem Wan2.2 Video-Generierungs-Framework auf:

  • Wan2.2 T2V-A14B: Text-to-Video MoE (Mixture of Experts) Modell
  • Wan2.2 I2V-A14B: Image-to-Video MoE Modell
  • StoryMem M2V LoRA: Speicher-konditionierte, feinabgestimmte Modelle

Generierungspipeline

Das System arbeitet in einem iterativen Prozess:

  1. Generierung der ersten Aufnahme: Verwendet das T2V-Modell, um die erste Aufnahme als initialen Speicher zu generieren.
  2. Iterative Shot-Synthese: Generiert nachfolgende Aufnahmen, die auf der Speicherbank basieren.
  3. Keyframe-Extraktion: Extrahiert automatisch Keyframes aus jeder generierten Aufnahme.
  4. Speicheraktualisierung: Aktualisiert die Speicherbank mit neuen Keyframes für die nächste Iteration.
  5. Cross-Shot-Konsistenz: Behält Charaktererscheinung, Szenenelemente und narrativen Fluss bei.

Erweiterte Funktionen

MI2V (Memory + Image-to-Video)

Ermöglicht flüssige Übergänge zwischen benachbarten Aufnahmen, indem es auf Speicher und dem ersten Frame der nächsten Aufnahme konditioniert wird, wenn kein Szenenwechsel beabsichtigt ist. Dies schafft nahtlose Kontinuität im narrativen Fluss.

MM2V (Memory + Motion-to-Video)

Unterstützt die Speicher-Konditionierung mit den ersten 5 Bewegungs-Frames und sorgt für noch flüssigere Shot-Übergänge durch Einbeziehung temporaler Bewegungsinformationen.

MR2V (Memory + Reference-to-Video)

Ermöglicht Benutzern, Referenzbilder als initialen Speicher bereitzustellen, was eine maßgeschneiderte Story-Generierung mit spezifischen Charakteren oder Hintergründen von Anfang an ermöglicht.

ST-Bench: Evaluierungsbenchmark

Um eine umfassende Evaluierung zu ermöglichen, haben die Forscher ST-Bench eingeführt, einen vielfältigen Benchmark für Multi-Shot-Video-Storytelling, der Folgendes enthält:

  • 30 lange Story-Skripte in verschiedenen Stilen
  • 8-12 Shot-Level-Text-Prompts pro Geschichte
  • 300 detaillierte Video-Prompts insgesamt, die Charaktere, Szenen, Dynamiken, Shot-Typen und Kamerabewegungen beschreiben
  • Szenenwechsel-Indikatoren für die korrekte Handhabung von Shot-Übergängen

Leistungserfolge

StoryMem zeigt signifikante Verbesserungen gegenüber bestehenden Methoden:

  • 28,7 % Verbesserung der Cross-Shot-Konsistenz gegenüber starken Baselines
  • Überlegene visuelle Qualität: Beibehaltung hoher ästhetischer Standards und Prompt-Konformität
  • Effiziente Generierung: Single-Shot-Rechenkosten für Multi-Shot-Ausgaben
  • Minutenlange Videos: Fähigkeit, kohärente Erzählungen von über 60 Sekunden zu generieren

Technische Spezifikationen

Systemanforderungen

  • Python 3.11
  • CUDA-kompatible GPU
  • Flash Attention-Unterstützung
  • Ausreichend VRAM für Video-Diffusionsmodelle

Wichtige Parameter

  • Ausgabeauflösung: Standard 832×480, konfigurierbar
  • Maximale Speichergröße: Standard 10 Aufnahmen, einstellbar
  • Speicherverwaltung: Dynamische Updates mit semantischer Filterung
  • Zufälliger Seed: Reproduzierbare Generierungsunterstützung

Anwendungsfälle und Anwendungen

  1. Narrative Videoerstellung: Generierung vollständiger Geschichten mit mehreren Szenen
  2. Charakterkonsistenter Inhalt: Beibehaltung der Charakteridentität über erweiterte Sequenzen hinweg
  3. Maßgeschneiderte Erzählungen: Verwendung von Referenzbildern für personalisierte Erzählungen
  4. Filmproduktionen: Erstellung von Videos mit professioneller Shot-Komposition und Übergängen
  5. Bildungsinhalte: Generierung von Erklärvideos mit sequenziellen Szenen

Forschungseinfluss

Das Framework stellt einen bedeutenden Fortschritt in der KI-Videogenerierung dar durch:

  • Überbrückung der Lücke zwischen Single-Shot-Qualität und Multi-Shot-Konsistenz
  • Einführung praktischer Gedächtnismechanismen für temporale Kohärenz
  • Bereitstellung eines effizienten Fine-Tuning-Ansatzes über LoRA
  • Etablierung von Bewertungsstandards durch ST-Bench
  • Ermöglichung zugänglicher Langform-Videoerstellung

Implementierungsdetails

Story-Skript-Format

Das System verwendet JSON-formatierte Story-Skripte mit:

  • story_overview: Narrativer Überblick
  • scene_num: Sequenzielle Szenennummerierung
  • cut: Szenenwechsel-Indikatoren (True/False)
  • video_prompts: Shot-Level-Textbeschreibungen

Generierungs-Workflow

  1. Laden der Basismodelle (T2V/I2V) und LoRA-Gewichte
  2. Parsen des Story-Skripts mit Shot-Beschreibungen
  3. Generieren der ersten Aufnahme oder Laden von Referenzbildern
  4. Eingabe der iterativen Generierungsschleife
  5. Extrahieren und Filtern von Keyframes
  6. Aktualisieren der Speicherbank
  7. Generieren der nächsten Aufnahme, konditioniert auf den Speicher
  8. Wiederholen bis zur Fertigstellung der Geschichte

Zukünftige Richtungen

Das Framework eröffnet Wege für:

  • Erweiterte Videolängen-Fähigkeiten
  • Verbesserte Charakteranpassung
  • Verbesserte Mechanismen für temporale Konsistenz
  • Handhabung von Multi-Charakter-Geschichten
  • Interaktive Erzählungsanwendungen

Zitierung

@article{zhang2025storymem,
  title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
  author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and 
          Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and 
          Kang, Hao and Lu, Xin and Pan, Xingang},
  journal={arXiv preprint},
  volume={arXiv:2512.19539},
  year={2025}
}

Ressourcen

Danksagungen

StoryMem baut auf dem Wan2.2-Framework auf und repräsentiert eine kollaborative Forschung zwischen NTU S-Lab und ByteDance, die den Stand der Technik im Bereich KI-gestütztes Video-Storytelling vorantreibt.

Star History Chart