Kevin-thu/StoryMem View GitHub Homepage for Latest Official Releases

Estrutura de geração de vídeo condicionada à memória para criar vídeos narrativos de longa duração e várias cenas coerentes com consistência entre cenas

NOASSERTIONPythonStoryMemKevin-thu 0.6k Last Updated: January 22, 2026

StoryMem: Narrativa de Vídeo Longo Multi-Cena com Memória

Visão Geral

StoryMem é um framework de IA de ponta desenvolvido por pesquisadores da Nanyang Technological University (NTU) S-Lab e ByteDance que revoluciona a geração de vídeos de longa duração, permitindo narrativas coerentes e multi-cena com qualidade cinematográfica. O sistema aborda um desafio fundamental na geração de vídeo por IA: manter a consistência visual e a coerência narrativa em múltiplas cenas em cenários de storytelling estendidos.

Inovação Central

Paradigma Memória-para-Vídeo (M2V)

O projeto introduz um novo design Memória-para-Vídeo (M2V) que transforma modelos de difusão de vídeo de cena única pré-treinados em contadores de histórias multi-cena. Este paradigma reformula a narrativa de vídeo de longa duração como síntese iterativa de cenas condicionada por memória visual explícita, inspirada em mecanismos de memória humana.

Componentes Técnicos Chave

Banco de Memória Dinâmico: Mantém um banco de memória compacto e atualizado dinamicamente de keyframes extraídos de cenas geradas anteriormente.
Injeção de Memória: A memória armazenada é injetada em modelos de difusão de vídeo de cena única através de concatenação latente e deslocamentos RoPE (Rotary Position Embedding) negativos.
Ajuste Fino LoRA: Alcança adaptação eficiente com apenas ajuste fino LoRA (Low-Rank Adaptation).
Seleção de Keyframe Semântico: Utiliza uma estratégia inteligente de seleção de keyframe com filtragem de preferência estética para garantir memória informativa e estável durante a geração.

Arquitetura Técnica

Modelos Base

StoryMem é construído sobre o framework de geração de vídeo Wan2.2:

Wan2.2 T2V-A14B: Modelo MoE (Mixture of Experts) Texto-para-Vídeo.
Wan2.2 I2V-A14B: Modelo MoE Imagem-para-Vídeo.
StoryMem M2V LoRA: Modelos ajustados finos condicionados por memória.

Pipeline de Geração

O sistema opera através de um processo iterativo:

Geração da Cena Inicial: Usa o modelo T2V para gerar a primeira cena como memória inicial.
Síntese Iterativa de Cenas: Gera cenas subsequentes condicionadas ao banco de memória.
Extração de Keyframe: Extrai automaticamente keyframes de cada cena gerada.
Atualização de Memória: Atualiza o banco de memória com novos keyframes para a próxima iteração.
Consistência entre Cenas: Mantém a aparência do personagem, elementos da cena e fluxo narrativo.

Recursos Avançados

MI2V (Memória + Imagem-para-Vídeo)

Permite transições suaves entre cenas adjacentes condicionando tanto na memória quanto no primeiro quadro da próxima cena, quando nenhum corte de cena é pretendido. Isso cria continuidade perfeita no fluxo narrativo.

MM2V (Memória + Movimento-para-Vídeo)

Suporta condicionamento de memória com os primeiros 5 quadros de movimento, proporcionando transições de cena ainda mais suaves ao incorporar informações de movimento temporal.

MR2V (Memória + Referência-para-Vídeo)

Permite que os usuários forneçam imagens de referência como memória inicial, possibilitando a geração de histórias personalizadas com personagens ou fundos específicos estabelecidos desde o início.

ST-Bench: Benchmark de Avaliação

Para facilitar a avaliação abrangente, os pesquisadores introduziram o ST-Bench, um benchmark diversificado para narrativa de vídeo multi-cena contendo:

30 roteiros de histórias longas abrangendo diversos estilos.
8-12 prompts de texto por cena por história.
300 prompts de vídeo detalhados totais descrevendo personagens, cenas, dinâmicas, tipos de cena e movimentos de câmera.
Indicadores de corte de cena para tratamento adequado de transição de cena.

Conquistas de Desempenho

StoryMem demonstra melhorias significativas em relação aos métodos existentes:

Melhora de 28,7% na consistência entre cenas em comparação com bases de referência fortes.
Qualidade visual superior: Mantém altos padrões estéticos e aderência aos prompts.
Geração eficiente: Custos computacionais de cena única para saídas multi-cena.
Vídeos de um minuto: Capaz de gerar narrativas coerentes com mais de 60 segundos.

Especificações Técnicas

Requisitos do Sistema

Python 3.11
GPU compatível com CUDA
Suporte a Flash Attention
VRAM suficiente para modelos de difusão de vídeo

Parâmetros Chave

Resolução de Saída: Padrão 832×480, configurável.
Tamanho Máximo da Memória: Padrão 10 cenas, ajustável.
Gerenciamento de Memória: Atualizações dinâmicas com filtragem semântica.
Semente Aleatória: Suporte para geração reproduzível.

Casos de Uso e Aplicações

Criação de Vídeos Narrativos: Gerar histórias completas com múltiplas cenas.
Conteúdo Consistente com Personagens: Manter a identidade do personagem em sequências estendidas.
Narrativa Personalizada: Usar imagens de referência para narrativas personalizadas.
Produções Cinematográficas: Criar vídeos com composição de cena e transições profissionais.
Conteúdo Educacional: Gerar vídeos explicativos com cenas sequenciais.

Impacto da Pesquisa

O framework representa um avanço significativo na geração de vídeo por IA ao:

Reduzir a lacuna entre a qualidade de cena única e a consistência multi-cena.
Introduzir mecanismos de memória práticos para coerência temporal.
Fornecer uma abordagem eficiente de ajuste fino via LoRA.
Estabelecer padrões de avaliação através do ST-Bench.
Possibilitar a criação acessível de vídeos de longa duração.

Detalhes de Implementação

Formato do Roteiro da História

O sistema utiliza roteiros de história formatados em JSON com:

story_overview: Resumo narrativo.
scene_num: Indexação sequencial de cenas.
cut: Indicadores de transição de cena (True/False).
video_prompts: Descrições de texto por cena.

Fluxo de Trabalho de Geração

Carregar modelos base (T2V/I2V) e pesos LoRA.
Analisar o roteiro da história com descrições de cena.
Gerar a cena inicial ou carregar imagens de referência.
Entrar no loop de geração iterativa.
Extrair e filtrar keyframes.
Atualizar o banco de memória.
Gerar a próxima cena condicionada à memória.
Repetir até a conclusão da história.

Direções Futuras

O framework abre caminhos para:

Capacidades de vídeo de maior duração.
Personalização aprimorada de personagens.
Mecanismos de consistência temporal aprimorados.
Manipulação de histórias com múltiplos personagens.
Aplicações de narrativa interativa.

Citação

@article{zhang2025storymem,
  title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
  author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and 
          Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and 
          Kang, Hao and Lu, Xin and Pan, Xingang},
  journal={arXiv preprint},
  volume={arXiv:2512.19539},
  year={2025}
}

Recursos

Paper: arXiv:2512.19539
Página do Projeto: kevin-thu.github.io/StoryMem
Repositório de Código: GitHub - Kevin-thu/StoryMem
Pesos do Modelo: Hugging Face - Kevin-thu/StoryMem

Agradecimentos

StoryMem é construído sobre o framework Wan2.2 e representa pesquisa colaborativa entre NTU S-Lab e ByteDance, avançando o estado da arte em storytelling de vídeo impulsionado por IA.