世界首個無限長度電影生成模型,採用Diffusion Forcing架構實現專業影視級影片生成
SkyReels-V2:無限長度電影生成模型
專案概述
SkyReels-V2 是由 SkyworkAI 開發的世界首個無限長度電影生成模型,採用 AutoRegressive Diffusion-Forcing 架構,在公開可用的模型中實現了 SOTA(最先進)性能。這個專案代表了視訊生成技術的重大突破,能夠生成理論上無限長度的高品質影視級視訊內容。
核心技術特性
1. Diffusion Forcing 架構
Diffusion Forcing 是一種訓練和採樣策略,為每個 token 分配獨立的雜訊水平。這允許 token 根據任意的、每個 token 的時間表進行去雜訊。概念上,這種方法相當於一種部分遮罩形式:雜訊為零的 token 是完全未遮罩的,而完全雜訊則完全遮罩。
2. 多模態技術融合
該方法綜合了多模態大語言模型(MLLM)、多階段預訓練、強化學習和 Diffusion Forcing 技術來實現綜合優化。
3. 視訊字幕生成器(SkyCaptioner-V1)
SkyCaptioner-V1 基於 Qwen2.5-VL-7B-Instruct 基礎模型進行了針對域特定視訊字幕任務的微調,在不同字幕領域的準確性評估中實現了最高的平均準確率。
模型變體
專案提供了多個模型變體來滿足不同需求:
Diffusion Forcing 模型系列
- SkyReels-V2-DF-1.3B-540P: 低參數版本,推薦解析度 544×960,97 幀
- SkyReels-V2-DF-14B-540P: 標準版本,適合 540P 視訊生成
- SkyReels-V2-DF-14B-720P: 高解析度版本,支援 720P 視訊生成
文字轉視訊模型(T2V)
- SkyReels-V2-T2V-14B-540P: 專門用於文字轉視訊生成
- SkyReels-V2-T2V-14B-720P: 高解析度文字轉視訊模型
圖像轉視訊模型(I2V)
- SkyReels-V2-I2V-1.3B-540P: 輕量級圖像轉視訊模型
- SkyReels-V2-I2V-14B-540P: 標準圖像轉視訊模型
- SkyReels-V2-I2V-14B-720P: 高解析度圖像轉視訊模型
技術創新點
1. 強化學習優化
為了避免其他指標的退化,如文字對齊和視訊品質,該團隊確保偏好數據對在文字對齊和視訊品質方面具有可比性,而只有運動品質不同。利用這個增強的數據集,首先訓練一個專門的獎勵模型來捕捉配對樣本之間的通用運動品質差異。
2. 多階段訓練流程
專案採用了四階段訓練增強流程:
- 初始概念平衡監督微調(SFT):提高基線品質
- 運動特定強化學習(RL)訓練:解決動態偽影問題
- Diffusion Forcing 框架:實現長視訊合成
- 最終高品質 SFT:精煉視覺保真度
3. 解析度漸進訓練
實施了 540p 和 720p 解析度的兩個連續高品質監督微調(SFT)階段,初始 SFT 階段在預訓練後但在強化學習階段之前立即進行。
性能表現
人工評估結果
在 SkyReels-Bench 評估中:
- 文字轉視訊模型:在指令遵循(3.15)方面表現優異,在一致性(3.35)方面保持競爭優勢
- 圖像轉視訊模型:SkyReels-V2-I2V 平均得分 3.29,可與專有模型 Kling-1.6(3.4)和 Runway-Gen4(3.39)相媲美
自動化評估結果
在 V-Bench 評估中: SkyReels-V2 超越了所有比較模型,包括 HunyuanVideo-13B 和 Wan2.1-14B,獲得了最高的總分(83.9%)和品質分(84.7%)。
應用場景
1. 故事生成
可以生成理論上無限長度的敘事視訊內容
2. 圖像轉視訊合成
將靜態圖像轉換為動態視訊序列
3. 攝影機導演功能
提供專業的攝影機運動和構圖控制
4. 多主體一致性視訊生成
透過 SkyReels-A2 系統實現多元素組合視訊生成
系統要求
硬體要求
- 1.3B 模型:生成 540P 視訊需要約 14.7GB 峰值 VRAM
- 14B 模型:生成 540P 視訊需要約 51.2GB 峰值 VRAM(Diffusion Forcing)或 43.4GB(T2V/I2V)
軟體環境
- Python 3.10.12
- 支援單 GPU 和多 GPU 推理
- 集成了 xDiT USP 加速推理
安裝和使用
基礎安裝
# 克隆倉庫
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
# 安裝依賴
pip install -r requirements.txt
文字轉視訊生成範例
model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
無限長度視訊生成範例
model_id=Skywork/SkyReels-V2-DF-14B-540P
# 同步推理生成10秒視訊
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
進階功能
1. 視訊擴展
支援在現有視訊基礎上進行擴展,實現更長的視訊內容
2. 起始/結束幀控制
可以指定視訊的開始幀和結束幀,實現精確的視訊控制
3. 提示詞增強器
基於 Qwen2.5-32B-Instruct 實現的提示詞增強功能,可以將簡短提示擴展為更詳細的描述
4. 多 GPU 加速
支援透過 xDiT USP 進行多 GPU 並行推理,大幅提升生成速度
相關專案
- SkyReels-A2:可控視訊生成框架,能夠組裝任意視覺元素
- SkyReels-V1:首個開源以人為中心的視訊基礎模型
- SkyCaptioner-V1:專門的視訊字幕生成模型
開源資訊
- GitHub 倉庫:https://github.com/SkyworkAI/SkyReels-V2
- Hugging Face 模型:https://huggingface.co/collections/Skywork/skyreels-v2-6801b1b93df627d441d0d0d9
- 技術論文:https://arxiv.org/pdf/2504.13074
- 線上體驗:https://www.skyreels.ai/home
總結
SkyReels-V2 代表了 AI 視訊生成技術的重大突破,特別是在長形式視訊合成方面。它不僅在技術上實現了創新,更為創意應用如戲劇製作和虛擬電子商務等領域提供了新的可能性,推動了可控視訊生成的邊界。