Kevin-thu/StoryMem View GitHub Homepage for Latest Official Releases

Gedächtnis-konditioniertes Videogenerierungs-Framework zur Erstellung kohärenter, mehrteiliger, langer narrativer Videos mit Shot-übergreifender Konsistenz

NOASSERTIONPythonStoryMemKevin-thu 0.6k Last Updated: January 22, 2026

StoryMem: Multi-shot Long Video Storytelling mit Gedächtnis

Übersicht

StoryMem ist ein hochmodernes KI-Framework, das von Forschern der Nanyang Technological University (NTU) S-Lab und ByteDance entwickelt wurde und die Generierung von Langform-Videos revolutioniert, indem es kohärente, Multi-Shot-Narrativ-Videos mit filmischer Qualität ermöglicht. Das System adressiert eine grundlegende Herausforderung bei der KI-Videogenerierung: die Aufrechterhaltung der visuellen Konsistenz und der narrativen Kohärenz über mehrere Aufnahmen hinweg in erweiterten Erzählszenarien.

Kerninnovation

Memory-to-Video (M2V) Paradigma

Das Projekt stellt ein neuartiges Memory-to-Video (M2V) Design vor, das vortrainierte Single-Shot-Video-Diffusionsmodelle in Multi-Shot-Erzähler verwandelt. Dieses Paradigma formuliert die Langform-Videoerzählung als iterative Shot-Synthese, die auf explizitem visuellen Gedächtnis basiert und von menschlichen Gedächtnismechanismen inspiriert ist.

Wichtige technische Komponenten

Dynamische Speicherbank: Behält eine kompakte, dynamisch aktualisierte Speicherbank von Keyframes bei, die aus zuvor generierten Aufnahmen extrahiert wurden.
Speicherinjektion: Gespeicherter Speicher wird über latente Konkatenation und negative RoPE (Rotary Position Embedding) Verschiebungen in Single-Shot-Video-Diffusionsmodelle injiziert.
LoRA Fine-tuning: Erzielt eine effiziente Anpassung mit nur Low-Rank Adaptation (LoRA) Fine-tuning.
Semantische Keyframe-Auswahl: Verwendet eine intelligente Keyframe-Auswahlstrategie mit ästhetischer Präferenzfilterung, um informativen und stabilen Speicher während der Generierung zu gewährleisten.

Technische Architektur

Basismodelle

StoryMem baut auf dem Wan2.2 Video-Generierungs-Framework auf:

Wan2.2 T2V-A14B: Text-to-Video MoE (Mixture of Experts) Modell
Wan2.2 I2V-A14B: Image-to-Video MoE Modell
StoryMem M2V LoRA: Speicher-konditionierte, feinabgestimmte Modelle

Generierungspipeline

Das System arbeitet in einem iterativen Prozess:

Generierung der ersten Aufnahme: Verwendet das T2V-Modell, um die erste Aufnahme als initialen Speicher zu generieren.
Iterative Shot-Synthese: Generiert nachfolgende Aufnahmen, die auf der Speicherbank basieren.
Keyframe-Extraktion: Extrahiert automatisch Keyframes aus jeder generierten Aufnahme.
Speicheraktualisierung: Aktualisiert die Speicherbank mit neuen Keyframes für die nächste Iteration.
Cross-Shot-Konsistenz: Behält Charaktererscheinung, Szenenelemente und narrativen Fluss bei.

Erweiterte Funktionen

MI2V (Memory + Image-to-Video)

Ermöglicht flüssige Übergänge zwischen benachbarten Aufnahmen, indem es auf Speicher und dem ersten Frame der nächsten Aufnahme konditioniert wird, wenn kein Szenenwechsel beabsichtigt ist. Dies schafft nahtlose Kontinuität im narrativen Fluss.

MM2V (Memory + Motion-to-Video)

Unterstützt die Speicher-Konditionierung mit den ersten 5 Bewegungs-Frames und sorgt für noch flüssigere Shot-Übergänge durch Einbeziehung temporaler Bewegungsinformationen.

MR2V (Memory + Reference-to-Video)

Ermöglicht Benutzern, Referenzbilder als initialen Speicher bereitzustellen, was eine maßgeschneiderte Story-Generierung mit spezifischen Charakteren oder Hintergründen von Anfang an ermöglicht.

ST-Bench: Evaluierungsbenchmark

Um eine umfassende Evaluierung zu ermöglichen, haben die Forscher ST-Bench eingeführt, einen vielfältigen Benchmark für Multi-Shot-Video-Storytelling, der Folgendes enthält:

30 lange Story-Skripte in verschiedenen Stilen
8-12 Shot-Level-Text-Prompts pro Geschichte
300 detaillierte Video-Prompts insgesamt, die Charaktere, Szenen, Dynamiken, Shot-Typen und Kamerabewegungen beschreiben
Szenenwechsel-Indikatoren für die korrekte Handhabung von Shot-Übergängen

Leistungserfolge

StoryMem zeigt signifikante Verbesserungen gegenüber bestehenden Methoden:

28,7 % Verbesserung der Cross-Shot-Konsistenz gegenüber starken Baselines
Überlegene visuelle Qualität: Beibehaltung hoher ästhetischer Standards und Prompt-Konformität
Effiziente Generierung: Single-Shot-Rechenkosten für Multi-Shot-Ausgaben
Minutenlange Videos: Fähigkeit, kohärente Erzählungen von über 60 Sekunden zu generieren

Technische Spezifikationen

Systemanforderungen

Python 3.11
CUDA-kompatible GPU
Flash Attention-Unterstützung
Ausreichend VRAM für Video-Diffusionsmodelle

Wichtige Parameter

Ausgabeauflösung: Standard 832×480, konfigurierbar
Maximale Speichergröße: Standard 10 Aufnahmen, einstellbar
Speicherverwaltung: Dynamische Updates mit semantischer Filterung
Zufälliger Seed: Reproduzierbare Generierungsunterstützung

Anwendungsfälle und Anwendungen

Narrative Videoerstellung: Generierung vollständiger Geschichten mit mehreren Szenen
Charakterkonsistenter Inhalt: Beibehaltung der Charakteridentität über erweiterte Sequenzen hinweg
Maßgeschneiderte Erzählungen: Verwendung von Referenzbildern für personalisierte Erzählungen
Filmproduktionen: Erstellung von Videos mit professioneller Shot-Komposition und Übergängen
Bildungsinhalte: Generierung von Erklärvideos mit sequenziellen Szenen

Forschungseinfluss

Das Framework stellt einen bedeutenden Fortschritt in der KI-Videogenerierung dar durch:

Überbrückung der Lücke zwischen Single-Shot-Qualität und Multi-Shot-Konsistenz
Einführung praktischer Gedächtnismechanismen für temporale Kohärenz
Bereitstellung eines effizienten Fine-Tuning-Ansatzes über LoRA
Etablierung von Bewertungsstandards durch ST-Bench
Ermöglichung zugänglicher Langform-Videoerstellung

Implementierungsdetails

Story-Skript-Format

Das System verwendet JSON-formatierte Story-Skripte mit:

story_overview: Narrativer Überblick
scene_num: Sequenzielle Szenennummerierung
cut: Szenenwechsel-Indikatoren (True/False)
video_prompts: Shot-Level-Textbeschreibungen

Generierungs-Workflow

Laden der Basismodelle (T2V/I2V) und LoRA-Gewichte
Parsen des Story-Skripts mit Shot-Beschreibungen
Generieren der ersten Aufnahme oder Laden von Referenzbildern
Eingabe der iterativen Generierungsschleife
Extrahieren und Filtern von Keyframes
Aktualisieren der Speicherbank
Generieren der nächsten Aufnahme, konditioniert auf den Speicher
Wiederholen bis zur Fertigstellung der Geschichte

Zukünftige Richtungen

Das Framework eröffnet Wege für:

Erweiterte Videolängen-Fähigkeiten
Verbesserte Charakteranpassung
Verbesserte Mechanismen für temporale Konsistenz
Handhabung von Multi-Charakter-Geschichten
Interaktive Erzählungsanwendungen

Zitierung

@article{zhang2025storymem,
  title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
  author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and 
          Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and 
          Kang, Hao and Lu, Xin and Pan, Xingang},
  journal={arXiv preprint},
  volume={arXiv:2512.19539},
  year={2025}
}

Ressourcen

Paper: arXiv:2512.19539
Projektseite: kevin-thu.github.io/StoryMem
Code-Repository: GitHub - Kevin-thu/StoryMem
Modellgewichte: Hugging Face - Kevin-thu/StoryMem

Danksagungen

StoryMem baut auf dem Wan2.2-Framework auf und repräsentiert eine kollaborative Forschung zwischen NTU S-Lab und ByteDance, die den Stand der Technik im Bereich KI-gestütztes Video-Storytelling vorantreibt.