Estrutura de geração de vídeo condicionada à memória para criar vídeos narrativos de longa duração e várias cenas coerentes com consistência entre cenas

NOASSERTIONPythonStoryMemKevin-thu 0.6k Last Updated: December 26, 2025

StoryMem: Narrativa de Vídeo Longo Multi-Cena com Memória

Visão Geral

StoryMem é um framework de IA de ponta desenvolvido por pesquisadores da Nanyang Technological University (NTU) S-Lab e ByteDance que revoluciona a geração de vídeos de longa duração, permitindo narrativas coerentes e multi-cena com qualidade cinematográfica. O sistema aborda um desafio fundamental na geração de vídeo por IA: manter a consistência visual e a coerência narrativa em múltiplas cenas em cenários de storytelling estendidos.

Inovação Central

Paradigma Memória-para-Vídeo (M2V)

O projeto introduz um novo design Memória-para-Vídeo (M2V) que transforma modelos de difusão de vídeo de cena única pré-treinados em contadores de histórias multi-cena. Este paradigma reformula a narrativa de vídeo de longa duração como síntese iterativa de cenas condicionada por memória visual explícita, inspirada em mecanismos de memória humana.

Componentes Técnicos Chave

  1. Banco de Memória Dinâmico: Mantém um banco de memória compacto e atualizado dinamicamente de keyframes extraídos de cenas geradas anteriormente.
  2. Injeção de Memória: A memória armazenada é injetada em modelos de difusão de vídeo de cena única através de concatenação latente e deslocamentos RoPE (Rotary Position Embedding) negativos.
  3. Ajuste Fino LoRA: Alcança adaptação eficiente com apenas ajuste fino LoRA (Low-Rank Adaptation).
  4. Seleção de Keyframe Semântico: Utiliza uma estratégia inteligente de seleção de keyframe com filtragem de preferência estética para garantir memória informativa e estável durante a geração.

Arquitetura Técnica

Modelos Base

StoryMem é construído sobre o framework de geração de vídeo Wan2.2:

  • Wan2.2 T2V-A14B: Modelo MoE (Mixture of Experts) Texto-para-Vídeo.
  • Wan2.2 I2V-A14B: Modelo MoE Imagem-para-Vídeo.
  • StoryMem M2V LoRA: Modelos ajustados finos condicionados por memória.

Pipeline de Geração

O sistema opera através de um processo iterativo:

  1. Geração da Cena Inicial: Usa o modelo T2V para gerar a primeira cena como memória inicial.
  2. Síntese Iterativa de Cenas: Gera cenas subsequentes condicionadas ao banco de memória.
  3. Extração de Keyframe: Extrai automaticamente keyframes de cada cena gerada.
  4. Atualização de Memória: Atualiza o banco de memória com novos keyframes para a próxima iteração.
  5. Consistência entre Cenas: Mantém a aparência do personagem, elementos da cena e fluxo narrativo.

Recursos Avançados

MI2V (Memória + Imagem-para-Vídeo)

Permite transições suaves entre cenas adjacentes condicionando tanto na memória quanto no primeiro quadro da próxima cena, quando nenhum corte de cena é pretendido. Isso cria continuidade perfeita no fluxo narrativo.

MM2V (Memória + Movimento-para-Vídeo)

Suporta condicionamento de memória com os primeiros 5 quadros de movimento, proporcionando transições de cena ainda mais suaves ao incorporar informações de movimento temporal.

MR2V (Memória + Referência-para-Vídeo)

Permite que os usuários forneçam imagens de referência como memória inicial, possibilitando a geração de histórias personalizadas com personagens ou fundos específicos estabelecidos desde o início.

ST-Bench: Benchmark de Avaliação

Para facilitar a avaliação abrangente, os pesquisadores introduziram o ST-Bench, um benchmark diversificado para narrativa de vídeo multi-cena contendo:

  • 30 roteiros de histórias longas abrangendo diversos estilos.
  • 8-12 prompts de texto por cena por história.
  • 300 prompts de vídeo detalhados totais descrevendo personagens, cenas, dinâmicas, tipos de cena e movimentos de câmera.
  • Indicadores de corte de cena para tratamento adequado de transição de cena.

Conquistas de Desempenho

StoryMem demonstra melhorias significativas em relação aos métodos existentes:

  • Melhora de 28,7% na consistência entre cenas em comparação com bases de referência fortes.
  • Qualidade visual superior: Mantém altos padrões estéticos e aderência aos prompts.
  • Geração eficiente: Custos computacionais de cena única para saídas multi-cena.
  • Vídeos de um minuto: Capaz de gerar narrativas coerentes com mais de 60 segundos.

Especificações Técnicas

Requisitos do Sistema

  • Python 3.11
  • GPU compatível com CUDA
  • Suporte a Flash Attention
  • VRAM suficiente para modelos de difusão de vídeo

Parâmetros Chave

  • Resolução de Saída: Padrão 832×480, configurável.
  • Tamanho Máximo da Memória: Padrão 10 cenas, ajustável.
  • Gerenciamento de Memória: Atualizações dinâmicas com filtragem semântica.
  • Semente Aleatória: Suporte para geração reproduzível.

Casos de Uso e Aplicações

  1. Criação de Vídeos Narrativos: Gerar histórias completas com múltiplas cenas.
  2. Conteúdo Consistente com Personagens: Manter a identidade do personagem em sequências estendidas.
  3. Narrativa Personalizada: Usar imagens de referência para narrativas personalizadas.
  4. Produções Cinematográficas: Criar vídeos com composição de cena e transições profissionais.
  5. Conteúdo Educacional: Gerar vídeos explicativos com cenas sequenciais.

Impacto da Pesquisa

O framework representa um avanço significativo na geração de vídeo por IA ao:

  • Reduzir a lacuna entre a qualidade de cena única e a consistência multi-cena.
  • Introduzir mecanismos de memória práticos para coerência temporal.
  • Fornecer uma abordagem eficiente de ajuste fino via LoRA.
  • Estabelecer padrões de avaliação através do ST-Bench.
  • Possibilitar a criação acessível de vídeos de longa duração.

Detalhes de Implementação

Formato do Roteiro da História

O sistema utiliza roteiros de história formatados em JSON com:

  • story_overview: Resumo narrativo.
  • scene_num: Indexação sequencial de cenas.
  • cut: Indicadores de transição de cena (True/False).
  • video_prompts: Descrições de texto por cena.

Fluxo de Trabalho de Geração

  1. Carregar modelos base (T2V/I2V) e pesos LoRA.
  2. Analisar o roteiro da história com descrições de cena.
  3. Gerar a cena inicial ou carregar imagens de referência.
  4. Entrar no loop de geração iterativa.
  5. Extrair e filtrar keyframes.
  6. Atualizar o banco de memória.
  7. Gerar a próxima cena condicionada à memória.
  8. Repetir até a conclusão da história.

Direções Futuras

O framework abre caminhos para:

  • Capacidades de vídeo de maior duração.
  • Personalização aprimorada de personagens.
  • Mecanismos de consistência temporal aprimorados.
  • Manipulação de histórias com múltiplos personagens.
  • Aplicações de narrativa interativa.

Citação

@article{zhang2025storymem,
  title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
  author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and 
          Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and 
          Kang, Hao and Lu, Xin and Pan, Xingang},
  journal={arXiv preprint},
  volume={arXiv:2512.19539},
  year={2025}
}

Recursos

Agradecimentos

StoryMem é construído sobre o framework Wan2.2 e representa pesquisa colaborativa entre NTU S-Lab e ByteDance, avançando o estado da arte em storytelling de vídeo impulsionado por IA.

Star History Chart