ショット間の整合性を持つ、一貫したマルチショット長編物語ビデオを作成するための、記憶条件付けビデオ生成フレームワーク
StoryMem: メモリを用いたマルチショット長尺動画ストーリーテリング
概要
StoryMemは、南洋理工大学(NTU)S-LabとByteDanceの研究者によって開発された最先端のAIフレームワークであり、シネマティック品質の首尾一貫したマルチショット物語動画を可能にすることで、長尺動画生成に革命をもたらします。このシステムは、AI動画生成における根本的な課題、すなわち、長尺ストーリーテリングシナリオにおける複数のショット間での視覚的一貫性と物語的一貫性を維持するという課題に対処します。
コア技術革新
Memory-to-Video (M2V) パラダイム
このプロジェクトは、事前学習済みのシングルショット動画拡散モデルをマルチショットストーリーテラーに変換する、新しいMemory-to-Video(M2V)設計を導入します。このパラダイムは、人間の記憶メカニズムに着想を得て、明示的な視覚的メモリを条件とする反復的なショット合成として長尺動画ストーリーテリングを再定式化します。
主要技術コンポーネント
- 動的メモリバンク: 以前に生成されたショットから抽出されたキーフレームの、コンパクトで動的に更新されるメモリバンクを維持します。
- メモリ注入: 保存されたメモリは、潜在的連結と負のRoPE(Rotary Position Embedding)シフトを介してシングルショット動画拡散モデルに注入されます。
- LoRAファインチューニング: 低ランク適応(LoRA)ファインチューニングのみで効率的な適応を実現します。
- 意味的キーフレーム選択: 生成全体を通して情報量が多く安定したメモリを確保するために、美的選好フィルタリングを備えたインテリジェントなキーフレーム選択戦略を使用します。
技術アーキテクチャ
ベースモデル
StoryMemは、Wan2.2動画生成フレームワークを基盤としています。
- Wan2.2 T2V-A14B: Text-to-Video MoE(Mixture of Experts)モデル
- Wan2.2 I2V-A14B: Image-to-Video MoEモデル
- StoryMem M2V LoRA: メモリ条件付きファインチューニングモデル
生成パイプライン
システムは反復的なプロセスを通じて動作します。
- 初期ショット生成: T2Vモデルを使用して、最初のショットを初期メモリとして生成します。
- 反復的ショット合成: メモリバンクを条件として後続のショットを生成します。
- キーフレーム抽出: 生成された各ショットから自動的にキーフレームを抽出します。
- メモリ更新: 次のイテレーションのために、新しいキーフレームでメモリバンクを更新します。
- ショット間の一貫性: キャラクターの外見、シーン要素、物語の流れを維持します。
高度な機能
MI2V(Memory + Image-to-Video)
シーンカットが意図されていない場合に、メモリと次のショットの最初のフレームの両方を条件とすることで、隣接するショット間のスムーズな遷移を可能にします。これにより、物語の流れにシームレスな連続性が生まれます。
MM2V(Memory + Motion-to-Video)
最初の5つのモーションフレームでのメモリ条件付けをサポートし、時間的モーション情報を取り込むことで、さらにスムーズなショット遷移を提供します。
MR2V(Memory + Reference-to-Video)
ユーザーが参照画像を初期メモリとして提供できるようにし、最初から特定のキャラクターや背景を設定したカスタマイズされたストーリー生成を可能にします。
ST-Bench: 評価ベンチマーク
包括的な評価を容易にするために、研究者たちは、マルチショット動画ストーリーテリングのための多様なベンチマークであるST-Benchを導入しました。これには以下が含まれます。
- 多様なスタイルにわたる30の長編ストーリー脚本
- ストーリーあたり8〜12のショットレベルテキストプロンプト
- キャラクター、シーン、ダイナミクス、ショットタイプ、カメラワークを説明する合計300の詳細な動画プロンプト
- 適切なショット遷移処理のためのシーンカットインジケーター
パフォーマンス実績
StoryMemは、既存の方法と比較して大幅な改善を示しています。
- 強力なベースラインと比較して、ショット間の一貫性が28.7%向上
- 優れた視覚品質: 高い美的基準とプロンプトへの準拠を維持します。
- 効率的な生成: マルチショット出力に対するシングルショット計算コスト。
- 1分間の動画: 60秒を超える首尾一貫した物語の生成が可能。
技術仕様
システム要件
- Python 3.11
- CUDA互換GPU
- Flash Attentionサポート
- 動画拡散モデル用の十分なVRAM
主要パラメータ
- 出力解像度: デフォルト832×480、設定可能
- 最大メモリサイズ: デフォルト10ショット、調整可能
- メモリ管理: 意味的フィルタリングによる動的更新
- 乱数シード: 再現可能な生成をサポート
ユースケースとアプリケーション
- 物語動画作成: 複数のシーンを含む完全な物語を生成します。
- キャラクター一貫性のあるコンテンツ: 長尺シーケンス全体でキャラクターのアイデンティティを維持します。
- カスタマイズされたストーリーテリング: 参照画像を使用してパーソナライズされた物語を作成します。
- シネマティックプロダクション: プロフェッショナルなショット構成とトランジションを備えた動画を作成します。
- 教育コンテンツ: シーケンシャルなシーンを備えた説明動画を生成します。
研究への影響
このフレームワークは、AI動画生成における重要な進歩を表しています。
- シングルショットの品質とマルチショットの一貫性のギャップを埋める
- 時間的一貫性のための実用的なメモリメカニズムを導入する
- LoRAによる効率的なファインチューニングアプローチを提供する
- ST-Benchを通じた評価基準を確立する
- アクセス可能な長尺動画作成を可能にする
実装詳細
ストーリー脚本フォーマット
システムは、以下のJSON形式のストーリー脚本を使用します。
- story_overview: 物語の概要
- scene_num: シーケンシャルなシーンインデックス
- cut: シーン遷移インジケーター(True/False)
- video_prompts: ショットレベルのテキスト説明
生成ワークフロー
- ベースモデル(T2V/I2V)とLoRAウェイトをロードします。
- ショット説明を含むストーリー脚本を解析します。
- 初期ショットを生成するか、参照画像をロードします。
- 反復生成ループに入ります。
- キーフレームを抽出し、フィルタリングします。
- メモリバンクを更新します。
- メモリを条件として次のショットを生成します。
- 物語が完了するまで繰り返します。
将来の方向性
このフレームワークは、以下のための道を開きます。
- 長尺動画の能力の拡張
- キャラクターカスタマイズの強化
- 時間的一貫性メカニズムの改善
- マルチキャラクターストーリー処理
- インタラクティブストーリーテリングアプリケーション
引用
@article{zhang2025storymem,
title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and
Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and
Kang, Hao and Lu, Xin and Pan, Xingang},
journal={arXiv preprint},
volume={arXiv:2512.19539},
year={2025}
}
リソース
- 論文: arXiv:2512.19539
- プロジェクトページ: kevin-thu.github.io/StoryMem
- コードリポジトリ: GitHub - Kevin-thu/StoryMem
- モデルウェイト: Hugging Face - Kevin-thu/StoryMem
謝辞
StoryMemはWan2.2フレームワークを基盤としており、NTU S-LabとByteDanceの共同研究を表し、AIを活用した動画ストーリーテリングの最先端を前進させています。