用於創建具有跨鏡頭一致性的連貫多鏡頭長篇敘事影片的記憶條件式影片生成框架

NOASSERTIONPythonStoryMemKevin-thu 0.6k Last Updated: December 26, 2025

StoryMem:具備記憶的多鏡頭長影片敘事

概述

StoryMem 是由南洋理工大學 (NTU) S-Lab 和字節跳動的研究人員開發的前沿 AI 框架,透過實現具有電影品質的連貫多鏡頭敘事影片,徹底改變了長篇影片生成。該系統解決了 AI 影片生成中的一個根本性挑戰:在擴展敘事場景的多個鏡頭中保持視覺一致性和敘事連貫性。

核心創新

記憶到影片 (M2V) 範式

該專案引入了一種新穎的記憶到影片 (M2V) 設計,將預先訓練的單鏡頭影片擴散模型轉變為多鏡頭敘事者。這種範式受到人類記憶機制的啟發,將長篇影片敘事重新構想為以明確視覺記憶為條件的迭代鏡頭合成。

關鍵技術組件

  1. 動態記憶庫:維護一個由先前生成的鏡頭中提取的關鍵影格組成的緊湊、動態更新的記憶庫
  2. 記憶注入:透過潛在串聯和負向 RoPE (旋轉位置嵌入) 位移將儲存的記憶注入單鏡頭影片擴散模型
  3. LoRA 微調:僅透過低秩適應 (LoRA) 微調實現高效適應
  4. 語義關鍵影格選擇:採用具有美學偏好過濾的智慧關鍵影格選擇策略,以確保生成過程中記憶的資訊性和穩定性

技術架構

基本模型

StoryMem 以 Wan2.2 影片生成框架為基礎:

  • Wan2.2 T2V-A14B:文字到影片 MoE (專家混合) 模型
  • Wan2.2 I2V-A14B:圖像到影片 MoE 模型
  • StoryMem M2V LoRA:記憶條件微調模型

生成流程

系統透過迭代過程運行:

  1. 初始鏡頭生成:使用 T2V 模型生成第一個鏡頭作為初始記憶
  2. 迭代鏡頭合成:生成以記憶庫為條件的後續鏡頭
  3. 關鍵影格提取:自動從每個生成的鏡頭中提取關鍵影格
  4. 記憶更新:用新的關鍵影格更新記憶庫以進行下一次迭代
  5. 跨鏡頭一致性:保持角色外觀、場景元素和敘事流程

進階功能

MI2V (記憶 + 圖像到影片)

當不打算進行場景剪輯時,透過以記憶和下一個鏡頭的第一幀為條件,實現相鄰鏡頭之間的流暢過渡。這會在敘事流程中創造無縫的連續性。

MM2V (記憶 + 運動到影片)

支援以前 5 幀運動為條件的記憶,透過整合時間運動資訊提供更流暢的鏡頭過渡。

MR2V (記憶 + 參考到影片)

允許使用者提供參考圖像作為初始記憶,從而實現具有從一開始就建立的特定角色或背景的自訂故事生成。

ST-Bench:評估基準

為了促進全面評估,研究人員引入了 ST-Bench,這是一個用於多鏡頭影片敘事的多元化基準,包含:

  • 30 個長篇故事腳本,涵蓋多樣化的風格
  • 每個故事 8-12 個鏡頭級別的文字提示
  • 總共 300 個詳細的影片提示,描述角色、場景、動態、鏡頭類型和攝影機運動
  • 場景剪輯指示器,用於正確處理鏡頭過渡

效能成就

StoryMem 證明了相較於現有方法的顯著改進:

  • 跨鏡頭一致性比強基準提高了 28.7%
  • 卓越的視覺品質:保持高美學標準和提示遵循度
  • 高效生成:多鏡頭輸出的單鏡頭計算成本
  • 分鐘級影片:能夠生成超過 60 秒的連貫敘事

技術規格

系統需求

  • Python 3.11
  • 相容 CUDA 的 GPU
  • Flash Attention 支援
  • 足夠的影片擴散模型 VRAM

關鍵參數

  • 輸出解析度:預設 832×480,可配置
  • 最大記憶大小:預設 10 個鏡頭,可調整
  • 記憶管理:透過語義過濾進行動態更新
  • 隨機種子:可重現的生成支援

用途和應用

  1. 敘事影片創作:生成具有多個場景的完整故事
  2. 角色一致的內容:在擴展序列中保持角色身份
  3. 自訂敘事:使用參考圖像進行個人化敘事
  4. 電影製作:創建具有專業鏡頭構圖和過渡的影片
  5. 教育內容:生成具有連續場景的解釋性影片

研究影響

該框架透過以下方式代表了 AI 影片生成領域的重大進步:

  • 彌合單鏡頭品質與多鏡頭一致性之間的差距
  • 引入用於時間連貫性的實用記憶機制
  • 透過 LoRA 提供高效的微調方法
  • 透過 ST-Bench 建立評估標準
  • 實現可存取的長篇影片創作

實施細節

故事腳本格式

系統使用 JSON 格式的故事腳本,包含:

  • story_overview:敘事摘要
  • scene_num:順序場景索引
  • cut:場景過渡指示器 (True/False)
  • video_prompts:鏡頭級別的文字描述

生成工作流程

  1. 加載基本模型 (T2V/I2V) 和 LoRA 權重
  2. 解析帶有鏡頭描述的故事腳本
  3. 生成初始鏡頭或加載參考圖像
  4. 進入迭代生成循環
  5. 提取和過濾關鍵影格
  6. 更新記憶庫
  7. 生成以記憶為條件的下一個鏡頭
  8. 重複直到故事完成

未來方向

該框架為以下方面開闢了道路:

  • 擴展影片長度功能
  • 增強的角色自訂
  • 改進的時間一致性機制
  • 多角色故事處理
  • 互動式敘事應用

引用

@article{zhang2025storymem,
  title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
  author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and 
          Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and 
          Kang, Hao and Lu, Xin and Pan, Xingang},
  journal={arXiv preprint},
  volume={arXiv:2512.19539},
  year={2025}
}

資源

致謝

StoryMem 建立在 Wan2.2 框架之上,代表了 NTU S-Lab 和字節跳動之間的合作研究,推動了 AI 驅動影片敘事領域的最新技術。

Star History Chart