Estrutura de geração de vídeo condicionada à memória para criar vídeos narrativos de longa duração e várias cenas coerentes com consistência entre cenas
StoryMem: Narrativa de Vídeo Longo Multi-Cena com Memória
Visão Geral
StoryMem é um framework de IA de ponta desenvolvido por pesquisadores da Nanyang Technological University (NTU) S-Lab e ByteDance que revoluciona a geração de vídeos de longa duração, permitindo narrativas coerentes e multi-cena com qualidade cinematográfica. O sistema aborda um desafio fundamental na geração de vídeo por IA: manter a consistência visual e a coerência narrativa em múltiplas cenas em cenários de storytelling estendidos.
Inovação Central
Paradigma Memória-para-Vídeo (M2V)
O projeto introduz um novo design Memória-para-Vídeo (M2V) que transforma modelos de difusão de vídeo de cena única pré-treinados em contadores de histórias multi-cena. Este paradigma reformula a narrativa de vídeo de longa duração como síntese iterativa de cenas condicionada por memória visual explícita, inspirada em mecanismos de memória humana.
Componentes Técnicos Chave
- Banco de Memória Dinâmico: Mantém um banco de memória compacto e atualizado dinamicamente de keyframes extraídos de cenas geradas anteriormente.
- Injeção de Memória: A memória armazenada é injetada em modelos de difusão de vídeo de cena única através de concatenação latente e deslocamentos RoPE (Rotary Position Embedding) negativos.
- Ajuste Fino LoRA: Alcança adaptação eficiente com apenas ajuste fino LoRA (Low-Rank Adaptation).
- Seleção de Keyframe Semântico: Utiliza uma estratégia inteligente de seleção de keyframe com filtragem de preferência estética para garantir memória informativa e estável durante a geração.
Arquitetura Técnica
Modelos Base
StoryMem é construído sobre o framework de geração de vídeo Wan2.2:
- Wan2.2 T2V-A14B: Modelo MoE (Mixture of Experts) Texto-para-Vídeo.
- Wan2.2 I2V-A14B: Modelo MoE Imagem-para-Vídeo.
- StoryMem M2V LoRA: Modelos ajustados finos condicionados por memória.
Pipeline de Geração
O sistema opera através de um processo iterativo:
- Geração da Cena Inicial: Usa o modelo T2V para gerar a primeira cena como memória inicial.
- Síntese Iterativa de Cenas: Gera cenas subsequentes condicionadas ao banco de memória.
- Extração de Keyframe: Extrai automaticamente keyframes de cada cena gerada.
- Atualização de Memória: Atualiza o banco de memória com novos keyframes para a próxima iteração.
- Consistência entre Cenas: Mantém a aparência do personagem, elementos da cena e fluxo narrativo.
Recursos Avançados
MI2V (Memória + Imagem-para-Vídeo)
Permite transições suaves entre cenas adjacentes condicionando tanto na memória quanto no primeiro quadro da próxima cena, quando nenhum corte de cena é pretendido. Isso cria continuidade perfeita no fluxo narrativo.
MM2V (Memória + Movimento-para-Vídeo)
Suporta condicionamento de memória com os primeiros 5 quadros de movimento, proporcionando transições de cena ainda mais suaves ao incorporar informações de movimento temporal.
MR2V (Memória + Referência-para-Vídeo)
Permite que os usuários forneçam imagens de referência como memória inicial, possibilitando a geração de histórias personalizadas com personagens ou fundos específicos estabelecidos desde o início.
ST-Bench: Benchmark de Avaliação
Para facilitar a avaliação abrangente, os pesquisadores introduziram o ST-Bench, um benchmark diversificado para narrativa de vídeo multi-cena contendo:
- 30 roteiros de histórias longas abrangendo diversos estilos.
- 8-12 prompts de texto por cena por história.
- 300 prompts de vídeo detalhados totais descrevendo personagens, cenas, dinâmicas, tipos de cena e movimentos de câmera.
- Indicadores de corte de cena para tratamento adequado de transição de cena.
Conquistas de Desempenho
StoryMem demonstra melhorias significativas em relação aos métodos existentes:
- Melhora de 28,7% na consistência entre cenas em comparação com bases de referência fortes.
- Qualidade visual superior: Mantém altos padrões estéticos e aderência aos prompts.
- Geração eficiente: Custos computacionais de cena única para saídas multi-cena.
- Vídeos de um minuto: Capaz de gerar narrativas coerentes com mais de 60 segundos.
Especificações Técnicas
Requisitos do Sistema
- Python 3.11
- GPU compatível com CUDA
- Suporte a Flash Attention
- VRAM suficiente para modelos de difusão de vídeo
Parâmetros Chave
- Resolução de Saída: Padrão 832×480, configurável.
- Tamanho Máximo da Memória: Padrão 10 cenas, ajustável.
- Gerenciamento de Memória: Atualizações dinâmicas com filtragem semântica.
- Semente Aleatória: Suporte para geração reproduzível.
Casos de Uso e Aplicações
- Criação de Vídeos Narrativos: Gerar histórias completas com múltiplas cenas.
- Conteúdo Consistente com Personagens: Manter a identidade do personagem em sequências estendidas.
- Narrativa Personalizada: Usar imagens de referência para narrativas personalizadas.
- Produções Cinematográficas: Criar vídeos com composição de cena e transições profissionais.
- Conteúdo Educacional: Gerar vídeos explicativos com cenas sequenciais.
Impacto da Pesquisa
O framework representa um avanço significativo na geração de vídeo por IA ao:
- Reduzir a lacuna entre a qualidade de cena única e a consistência multi-cena.
- Introduzir mecanismos de memória práticos para coerência temporal.
- Fornecer uma abordagem eficiente de ajuste fino via LoRA.
- Estabelecer padrões de avaliação através do ST-Bench.
- Possibilitar a criação acessível de vídeos de longa duração.
Detalhes de Implementação
Formato do Roteiro da História
O sistema utiliza roteiros de história formatados em JSON com:
- story_overview: Resumo narrativo.
- scene_num: Indexação sequencial de cenas.
- cut: Indicadores de transição de cena (True/False).
- video_prompts: Descrições de texto por cena.
Fluxo de Trabalho de Geração
- Carregar modelos base (T2V/I2V) e pesos LoRA.
- Analisar o roteiro da história com descrições de cena.
- Gerar a cena inicial ou carregar imagens de referência.
- Entrar no loop de geração iterativa.
- Extrair e filtrar keyframes.
- Atualizar o banco de memória.
- Gerar a próxima cena condicionada à memória.
- Repetir até a conclusão da história.
Direções Futuras
O framework abre caminhos para:
- Capacidades de vídeo de maior duração.
- Personalização aprimorada de personagens.
- Mecanismos de consistência temporal aprimorados.
- Manipulação de histórias com múltiplos personagens.
- Aplicações de narrativa interativa.
Citação
@article{zhang2025storymem,
title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and
Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and
Kang, Hao and Lu, Xin and Pan, Xingang},
journal={arXiv preprint},
volume={arXiv:2512.19539},
year={2025}
}
Recursos
- Paper: arXiv:2512.19539
- Página do Projeto: kevin-thu.github.io/StoryMem
- Repositório de Código: GitHub - Kevin-thu/StoryMem
- Pesos do Modelo: Hugging Face - Kevin-thu/StoryMem
Agradecimentos
StoryMem é construído sobre o framework Wan2.2 e representa pesquisa colaborativa entre NTU S-Lab e ByteDance, avançando o estado da arte em storytelling de vídeo impulsionado por IA.