Marco de generación de video condicionado por la memoria para crear videos narrativos de formato largo y múltiples tomas coherentes con consistencia entre tomas
StoryMem: Narración de Historias de Vídeo Largas con Múltiples Tomas y Memoria
Resumen
StoryMem es un marco de IA de vanguardia desarrollado por investigadores de Nanyang Technological University (NTU) S-Lab y ByteDance que revoluciona la generación de vídeos de formato largo al permitir narrativas coherentes y de calidad cinematográfica con múltiples tomas. El sistema aborda un desafío fundamental en la generación de vídeo con IA: mantener la consistencia visual y la coherencia narrativa a través de múltiples tomas en escenarios de narración extendida.
Innovación Central
Paradigma Memoria-a-Vídeo (M2V)
El proyecto introduce un novedoso diseño de Memoria-a-Vídeo (M2V) que transforma modelos de difusión de vídeo de una sola toma pre-entrenados en narradores de historias de múltiples tomas. Este paradigma reformula la narración de vídeo de formato largo como una síntesis iterativa de tomas condicionada por memoria visual explícita, inspirada en los mecanismos de la memoria humana.
Componentes Técnicos Clave
- Banco de Memoria Dinámico: Mantiene un banco de memoria compacto y actualizado dinámicamente de fotogramas clave extraídos de tomas generadas previamente.
- Inyección de Memoria: La memoria almacenada se inyecta en modelos de difusión de vídeo de una sola toma a través de concatenación latente y desplazamientos RoPE (Rotary Position Embedding) negativos.
- Ajuste Fino LoRA: Logra una adaptación eficiente con solo ajuste fino de Adaptación de Rango Bajo (LoRA).
- Selección de Fotogramas Clave Semánticos: Utiliza una estrategia inteligente de selección de fotogramas clave con filtrado de preferencias estéticas para garantizar una memoria informativa y estable durante la generación.
Arquitectura Técnica
Modelos Base
StoryMem se basa en el marco de generación de vídeo Wan2.2:
- Wan2.2 T2V-A14B: Modelo de Texto-a-Vídeo MoE (Mezcla de Expertos).
- Wan2.2 I2V-A14B: Modelo de Imagen-a-Vídeo MoE.
- StoryMem M2V LoRA: Modelos ajustados finamente condicionados por memoria.
Pipeline de Generación
El sistema opera a través de un proceso iterativo:
- Generación de Toma Inicial: Utiliza el modelo T2V para generar la primera toma como memoria inicial.
- Síntesis Iterativa de Tomas: Genera tomas subsiguientes condicionadas por el banco de memoria.
- Extracción de Fotogramas Clave: Extrae automáticamente fotogramas clave de cada toma generada.
- Actualización de Memoria: Actualiza el banco de memoria con nuevos fotogramas clave para la siguiente iteración.
- Consistencia entre Tomas: Mantiene la apariencia del personaje, los elementos de la escena y el flujo narrativo.
Características Avanzadas
MI2V (Memoria + Imagen-a-Vídeo)
Permite transiciones fluidas entre tomas adyacentes al condicionar tanto la memoria como el primer fotograma de la siguiente toma cuando no se pretende un corte de escena. Esto crea una continuidad fluida en el flujo narrativo.
MM2V (Memoria + Movimiento-a-Vídeo)
Soporta el condicionamiento de memoria con los primeros 5 fotogramas de movimiento, proporcionando transiciones de toma aún más fluidas al incorporar información de movimiento temporal.
MR2V (Memoria + Referencia-a-Vídeo)
Permite a los usuarios proporcionar imágenes de referencia como memoria inicial, lo que permite la generación de historias personalizadas con personajes o fondos específicos establecidos desde el principio.
ST-Bench: Benchmark de Evaluación
Para facilitar una evaluación exhaustiva, los investigadores introdujeron ST-Bench, un benchmark diverso para la narración de historias de vídeo con múltiples tomas que contiene:
- 30 guiones de historias largas que abarcan diversos estilos.
- 8-12 indicaciones de texto a nivel de toma por historia.
- 300 indicaciones de vídeo detalladas en total que describen personajes, escenas, dinámicas, tipos de toma y movimientos de cámara.
- Indicadores de corte de escena para un manejo adecuado de la transición de tomas.
Logros de Rendimiento
StoryMem demuestra mejoras significativas sobre los métodos existentes:
- Mejora del 28.7% en la consistencia entre tomas sobre bases de referencia sólidas.
- Calidad visual superior: Mantiene altos estándares estéticos y adherencia a las indicaciones.
- Generación eficiente: Costos computacionales de una sola toma para salidas de múltiples tomas.
- Vídeos de un minuto: Capaz de generar narrativas coherentes de más de 60 segundos.
Especificaciones Técnicas
Requisitos del Sistema
- Python 3.11
- GPU compatible con CUDA
- Soporte de Flash Attention
- Suficiente VRAM para modelos de difusión de vídeo
Parámetros Clave
- Resolución de Salida: Por defecto 832×480, configurable.
- Tamaño Máximo de Memoria: Por defecto 10 tomas, ajustable.
- Gestión de Memoria: Actualizaciones dinámicas con filtrado semántico.
- Semilla Aleatoria: Soporte de generación reproducible.
Casos de Uso y Aplicaciones
- Creación de Vídeos Narrativos: Generar historias completas con múltiples escenas.
- Contenido Consistente con Personajes: Mantener la identidad del personaje a lo largo de secuencias extendidas.
- Narración Personalizada: Usar imágenes de referencia para narrativas personalizadas.
- Producciones Cinematográficas: Crear vídeos con composición y transiciones de tomas profesionales.
- Contenido Educativo: Generar vídeos explicativos con escenas secuenciales.
Impacto de la Investigación
El marco representa un avance significativo en la generación de vídeo con IA al:
- Cerrar la brecha entre la calidad de una sola toma y la consistencia de múltiples tomas.
- Introducir mecanismos de memoria prácticos para la coherencia temporal.
- Proporcionar un enfoque de ajuste fino eficiente a través de LoRA.
- Establecer estándares de evaluación a través de ST-Bench.
- Permitir la creación accesible de vídeos de formato largo.
Detalles de Implementación
Formato de Guion de Historia
El sistema utiliza guiones de historia en formato JSON con:
- story_overview: Resumen narrativo.
- scene_num: Indexación secuencial de escenas.
- cut: Indicadores de transición de escena (Verdadero/Falso).
- video_prompts: Descripciones de texto a nivel de toma.
Flujo de Trabajo de Generación
- Cargar modelos base (T2V/I2V) y pesos LoRA.
- Analizar el guion de la historia con descripciones de tomas.
- Generar la toma inicial o cargar imágenes de referencia.
- Entrar en el bucle de generación iterativa.
- Extraer y filtrar fotogramas clave.
- Actualizar el banco de memoria.
- Generar la siguiente toma condicionada por la memoria.
- Repetir hasta completar la historia.
Direcciones Futuras
El marco abre caminos para:
- Capacidades de longitud de vídeo extendida.
- Personalización de personajes mejorada.
- Mecanismos de consistencia temporal mejorados.
- Manejo de historias con múltiples personajes.
- Aplicaciones de narración interactiva.
Citación
@article{zhang2025storymem,
title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and
Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and
Kang, Hao and Lu, Xin and Pan, Xingang},
journal={arXiv preprint},
volume={arXiv:2512.19539},
year={2025}
}
Recursos
- Artículo: arXiv:2512.19539
- Página del Proyecto: kevin-thu.github.io/StoryMem
- Repositorio de Código: GitHub - Kevin-thu/StoryMem
- Pesos del Modelo: Hugging Face - Kevin-thu/StoryMem
Agradecimientos
StoryMem se basa en el marco Wan2.2 y representa una investigación colaborativa entre NTU S-Lab y ByteDance, avanzando el estado del arte en la narración de historias de vídeo impulsada por IA.