Cadre de génération vidéo conditionné par la mémoire pour créer des vidéos narratives longues et multi-plans cohérentes avec une consistance inter-plans
StoryMem : Création d'histoires vidéo longues multi-plans avec mémoire
Aperçu
StoryMem est un cadre d'IA de pointe développé par des chercheurs de la Nanyang Technological University (NTU) S-Lab et de ByteDance qui révolutionne la génération de vidéos longues en permettant des récits cohérents, multi-plans et de qualité cinématographique. Le système aborde un défi fondamental dans la génération de vidéos par IA : maintenir la cohérence visuelle et narrative sur plusieurs plans dans des scénarios de narration étendus.
Innovation Principale
Paradigme Mémoire-vers-Vidéo (M2V)
Le projet introduit une nouvelle conception Mémoire-vers-Vidéo (M2V) qui transforme les modèles de diffusion vidéo pré-entraînés à plan unique en conteurs d'histoires multi-plans. Ce paradigme reformule la narration vidéo longue comme une synthèse itérative de plans conditionnée sur une mémoire visuelle explicite, inspirée par les mécanismes de la mémoire humaine.
Composants Techniques Clés
- Banque de mémoire dynamique : Maintient une banque de mémoire compacte et mise à jour dynamiquement des images clés extraites des plans précédemment générés.
- Injection de mémoire : La mémoire stockée est injectée dans les modèles de diffusion vidéo à plan unique via une concaténation latente et des décalages RoPE (Rotary Position Embedding) négatifs.
- Fine-tuning LoRA : Permet une adaptation efficace avec uniquement un fine-tuning par Adaptation de Bas Rang (LoRA).
- Sélection sémantique d'images clés : Utilise une stratégie intelligente de sélection d'images clés avec filtrage des préférences esthétiques pour garantir une mémoire informative et stable tout au long de la génération.
Architecture Technique
Modèles de Base
StoryMem s'appuie sur le cadre de génération vidéo Wan2.2 :
- Wan2.2 T2V-A14B : Modèle Texte-vers-Vidéo MoE (Mixture of Experts).
- Wan2.2 I2V-A14B : Modèle Image-vers-Vidéo MoE.
- StoryMem M2V LoRA : Modèles fine-tunés conditionnés par la mémoire.
Pipeline de Génération
Le système fonctionne par un processus itératif :
- Génération du plan initial : Utilise le modèle T2V pour générer le premier plan comme mémoire initiale.
- Synthèse itérative de plans : Génère les plans suivants conditionnés par la banque de mémoire.
- Extraction d'images clés : Extrait automatiquement les images clés de chaque plan généré.
- Mise à jour de la mémoire : Met à jour la banque de mémoire avec de nouvelles images clés pour la prochaine itération.
- Cohérence inter-plans : Maintient l'apparence des personnages, les éléments de scène et le flux narratif.
Fonctionnalités Avancées
MI2V (Mémoire + Image-vers-Vidéo)
Permet des transitions fluides entre les plans adjacents en conditionnant à la fois sur la mémoire et sur la première image du plan suivant lorsqu'aucune coupure de scène n'est prévue. Cela crée une continuité transparente dans le flux narratif.
MM2V (Mémoire + Mouvement-vers-Vidéo)
Prend en charge le conditionnement de la mémoire avec les 5 premières images de mouvement, offrant des transitions de plans encore plus fluides en incorporant des informations de mouvement temporelles.
MR2V (Mémoire + Référence-vers-Vidéo)
Permet aux utilisateurs de fournir des images de référence comme mémoire initiale, permettant une création d'histoires personnalisée avec des personnages ou des arrière-plans spécifiques établis dès le départ.
ST-Bench : Benchmark d'Évaluation
Pour faciliter une évaluation complète, les chercheurs ont introduit ST-Bench, un benchmark diversifié pour la narration vidéo multi-plans contenant :
- 30 scripts d'histoires longues couvrant divers styles.
- 8 à 12 invites textuelles au niveau du plan par histoire.
- 300 invites vidéo détaillées au total décrivant les personnages, les scènes, les dynamiques, les types de plans et les mouvements de caméra.
- Indicateurs de coupure de scène pour une gestion appropriée des transitions de plans.
Réalisations en Matière de Performance
StoryMem démontre des améliorations significatives par rapport aux méthodes existantes :
- Amélioration de 28,7 % de la cohérence inter-plans par rapport aux bases de référence solides.
- Qualité visuelle supérieure : Maintient des normes esthétiques élevées et le respect des invites.
- Génération efficace : Coûts de calcul d'un plan unique pour des sorties multi-plans.
- Vidéos d'une minute : Capable de générer des récits cohérents de plus de 60 secondes.
Spécifications Techniques
Exigences Système
- Python 3.11
- GPU compatible CUDA
- Support Flash Attention
- VRAM suffisante pour les modèles de diffusion vidéo
Paramètres Clés
- Résolution de sortie : Par défaut 832×480, configurable.
- Taille maximale de la mémoire : Par défaut 10 plans, réglable.
- Gestion de la mémoire : Mises à jour dynamiques avec filtrage sémantique.
- Graine aléatoire : Support de génération reproductible.
Cas d'Utilisation et Applications
- Création de vidéos narratives : Générer des histoires complètes avec plusieurs scènes.
- Contenu cohérent avec les personnages : Maintenir l'identité des personnages sur des séquences étendues.
- Narration personnalisée : Utiliser des images de référence pour des récits personnalisés.
- Productions cinématographiques : Créer des vidéos avec une composition et des transitions de plans professionnelles.
- Contenu éducatif : Générer des vidéos explicatives avec des scènes séquentielles.
Impact de la Recherche
Le cadre représente une avancée significative dans la génération de vidéos par IA en :
- Comblant le fossé entre la qualité d'un plan unique et la cohérence multi-plans.
- Introduisant des mécanismes de mémoire pratiques pour la cohérence temporelle.
- Fournissant une approche de fine-tuning efficace via LoRA.
- Établissant des normes d'évaluation via ST-Bench.
- Permettant la création accessible de vidéos longues.
Détails d'Implémentation
Format des Scripts d'Histoire
Le système utilise des scripts d'histoire au format JSON avec :
- story_overview : Résumé narratif.
- scene_num : Indexation séquentielle des scènes.
- cut : Indicateurs de transition de scène (True/False).
- video_prompts : Descriptions textuelles au niveau du plan.
Flux de Travail de Génération
- Charger les modèles de base (T2V/I2V) et les poids LoRA.
- Analyser le script d'histoire avec les descriptions de plans.
- Générer le plan initial ou charger les images de référence.
- Entrer dans la boucle de génération itérative.
- Extraire et filtrer les images clés.
- Mettre à jour la banque de mémoire.
- Générer le plan suivant conditionné par la mémoire.
- Répéter jusqu'à la fin de l'histoire.
Directions Futures
Le cadre ouvre des voies pour :
- Capacités de longueur vidéo étendue.
- Personnalisation améliorée des personnages.
- Mécanismes de cohérence temporelle améliorés.
- Gestion d'histoires multi-personnages.
- Applications de narration interactive.
Citation
@article{zhang2025storymem,
title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and
Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and
Kang, Hao and Lu, Xin and Pan, Xingang},
journal={arXiv preprint},
volume={arXiv:2512.19539},
year={2025}
}
Ressources
- Article : arXiv:2512.19539
- Page du Projet : kevin-thu.github.io/StoryMem
- Référentiel de Code : GitHub - Kevin-thu/StoryMem
- Poids du Modèle : Hugging Face - Kevin-thu/StoryMem
Remerciements
StoryMem s'appuie sur le cadre Wan2.2 et représente une recherche collaborative entre NTU S-Lab et ByteDance, faisant progresser l'état de l'art dans la narration vidéo assistée par IA.