Marco de generación de video condicionado por la memoria para crear videos narrativos de formato largo y múltiples tomas coherentes con consistencia entre tomas

NOASSERTIONPythonStoryMemKevin-thu 0.6k Last Updated: January 22, 2026

StoryMem: Narración de Historias de Vídeo Largas con Múltiples Tomas y Memoria

Resumen

StoryMem es un marco de IA de vanguardia desarrollado por investigadores de Nanyang Technological University (NTU) S-Lab y ByteDance que revoluciona la generación de vídeos de formato largo al permitir narrativas coherentes y de calidad cinematográfica con múltiples tomas. El sistema aborda un desafío fundamental en la generación de vídeo con IA: mantener la consistencia visual y la coherencia narrativa a través de múltiples tomas en escenarios de narración extendida.

Innovación Central

Paradigma Memoria-a-Vídeo (M2V)

El proyecto introduce un novedoso diseño de Memoria-a-Vídeo (M2V) que transforma modelos de difusión de vídeo de una sola toma pre-entrenados en narradores de historias de múltiples tomas. Este paradigma reformula la narración de vídeo de formato largo como una síntesis iterativa de tomas condicionada por memoria visual explícita, inspirada en los mecanismos de la memoria humana.

Componentes Técnicos Clave

  1. Banco de Memoria Dinámico: Mantiene un banco de memoria compacto y actualizado dinámicamente de fotogramas clave extraídos de tomas generadas previamente.
  2. Inyección de Memoria: La memoria almacenada se inyecta en modelos de difusión de vídeo de una sola toma a través de concatenación latente y desplazamientos RoPE (Rotary Position Embedding) negativos.
  3. Ajuste Fino LoRA: Logra una adaptación eficiente con solo ajuste fino de Adaptación de Rango Bajo (LoRA).
  4. Selección de Fotogramas Clave Semánticos: Utiliza una estrategia inteligente de selección de fotogramas clave con filtrado de preferencias estéticas para garantizar una memoria informativa y estable durante la generación.

Arquitectura Técnica

Modelos Base

StoryMem se basa en el marco de generación de vídeo Wan2.2:

  • Wan2.2 T2V-A14B: Modelo de Texto-a-Vídeo MoE (Mezcla de Expertos).
  • Wan2.2 I2V-A14B: Modelo de Imagen-a-Vídeo MoE.
  • StoryMem M2V LoRA: Modelos ajustados finamente condicionados por memoria.

Pipeline de Generación

El sistema opera a través de un proceso iterativo:

  1. Generación de Toma Inicial: Utiliza el modelo T2V para generar la primera toma como memoria inicial.
  2. Síntesis Iterativa de Tomas: Genera tomas subsiguientes condicionadas por el banco de memoria.
  3. Extracción de Fotogramas Clave: Extrae automáticamente fotogramas clave de cada toma generada.
  4. Actualización de Memoria: Actualiza el banco de memoria con nuevos fotogramas clave para la siguiente iteración.
  5. Consistencia entre Tomas: Mantiene la apariencia del personaje, los elementos de la escena y el flujo narrativo.

Características Avanzadas

MI2V (Memoria + Imagen-a-Vídeo)

Permite transiciones fluidas entre tomas adyacentes al condicionar tanto la memoria como el primer fotograma de la siguiente toma cuando no se pretende un corte de escena. Esto crea una continuidad fluida en el flujo narrativo.

MM2V (Memoria + Movimiento-a-Vídeo)

Soporta el condicionamiento de memoria con los primeros 5 fotogramas de movimiento, proporcionando transiciones de toma aún más fluidas al incorporar información de movimiento temporal.

MR2V (Memoria + Referencia-a-Vídeo)

Permite a los usuarios proporcionar imágenes de referencia como memoria inicial, lo que permite la generación de historias personalizadas con personajes o fondos específicos establecidos desde el principio.

ST-Bench: Benchmark de Evaluación

Para facilitar una evaluación exhaustiva, los investigadores introdujeron ST-Bench, un benchmark diverso para la narración de historias de vídeo con múltiples tomas que contiene:

  • 30 guiones de historias largas que abarcan diversos estilos.
  • 8-12 indicaciones de texto a nivel de toma por historia.
  • 300 indicaciones de vídeo detalladas en total que describen personajes, escenas, dinámicas, tipos de toma y movimientos de cámara.
  • Indicadores de corte de escena para un manejo adecuado de la transición de tomas.

Logros de Rendimiento

StoryMem demuestra mejoras significativas sobre los métodos existentes:

  • Mejora del 28.7% en la consistencia entre tomas sobre bases de referencia sólidas.
  • Calidad visual superior: Mantiene altos estándares estéticos y adherencia a las indicaciones.
  • Generación eficiente: Costos computacionales de una sola toma para salidas de múltiples tomas.
  • Vídeos de un minuto: Capaz de generar narrativas coherentes de más de 60 segundos.

Especificaciones Técnicas

Requisitos del Sistema

  • Python 3.11
  • GPU compatible con CUDA
  • Soporte de Flash Attention
  • Suficiente VRAM para modelos de difusión de vídeo

Parámetros Clave

  • Resolución de Salida: Por defecto 832×480, configurable.
  • Tamaño Máximo de Memoria: Por defecto 10 tomas, ajustable.
  • Gestión de Memoria: Actualizaciones dinámicas con filtrado semántico.
  • Semilla Aleatoria: Soporte de generación reproducible.

Casos de Uso y Aplicaciones

  1. Creación de Vídeos Narrativos: Generar historias completas con múltiples escenas.
  2. Contenido Consistente con Personajes: Mantener la identidad del personaje a lo largo de secuencias extendidas.
  3. Narración Personalizada: Usar imágenes de referencia para narrativas personalizadas.
  4. Producciones Cinematográficas: Crear vídeos con composición y transiciones de tomas profesionales.
  5. Contenido Educativo: Generar vídeos explicativos con escenas secuenciales.

Impacto de la Investigación

El marco representa un avance significativo en la generación de vídeo con IA al:

  • Cerrar la brecha entre la calidad de una sola toma y la consistencia de múltiples tomas.
  • Introducir mecanismos de memoria prácticos para la coherencia temporal.
  • Proporcionar un enfoque de ajuste fino eficiente a través de LoRA.
  • Establecer estándares de evaluación a través de ST-Bench.
  • Permitir la creación accesible de vídeos de formato largo.

Detalles de Implementación

Formato de Guion de Historia

El sistema utiliza guiones de historia en formato JSON con:

  • story_overview: Resumen narrativo.
  • scene_num: Indexación secuencial de escenas.
  • cut: Indicadores de transición de escena (Verdadero/Falso).
  • video_prompts: Descripciones de texto a nivel de toma.

Flujo de Trabajo de Generación

  1. Cargar modelos base (T2V/I2V) y pesos LoRA.
  2. Analizar el guion de la historia con descripciones de tomas.
  3. Generar la toma inicial o cargar imágenes de referencia.
  4. Entrar en el bucle de generación iterativa.
  5. Extraer y filtrar fotogramas clave.
  6. Actualizar el banco de memoria.
  7. Generar la siguiente toma condicionada por la memoria.
  8. Repetir hasta completar la historia.

Direcciones Futuras

El marco abre caminos para:

  • Capacidades de longitud de vídeo extendida.
  • Personalización de personajes mejorada.
  • Mecanismos de consistencia temporal mejorados.
  • Manejo de historias con múltiples personajes.
  • Aplicaciones de narración interactiva.

Citación

@article{zhang2025storymem,
  title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
  author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and 
          Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and 
          Kang, Hao and Lu, Xin and Pan, Xingang},
  journal={arXiv preprint},
  volume={arXiv:2512.19539},
  year={2025}
}

Recursos

Agradecimientos

StoryMem se basa en el marco Wan2.2 y representa una investigación colaborativa entre NTU S-Lab y ByteDance, avanzando el estado del arte en la narración de historias de vídeo impulsada por IA.

Star History Chart