世界首个无限长度电影生成模型,采用Diffusion Forcing架构实现专业影视级视频生成
SkyReels-V2:无限长度电影生成模型
项目概述
SkyReels-V2 是由 SkyworkAI 开发的世界首个无限长度电影生成模型,使用 AutoRegressive Diffusion-Forcing 架构,在公开可用的模型中实现了 SOTA(最先进)性能。这个项目代表了视频生成技术的重大突破,能够生成理论上无限长度的高质量影视级视频内容。
核心技术特性
1. Diffusion Forcing 架构
Diffusion Forcing 是一种训练和采样策略,为每个token分配独立的噪声水平。这允许token根据任意的、每个token的时间表进行去噪。概念上,这种方法相当于一种部分掩码形式:噪声为零的token是完全未掩码的,而完全噪声则完全掩码。
2. 多模态技术融合
该方法综合了多模态大语言模型(MLLM)、多阶段预训练、强化学习和Diffusion Forcing技术来实现综合优化。
3. 视频字幕生成器(SkyCaptioner-V1)
SkyCaptioner-V1基于Qwen2.5-VL-7B-Instruct基础模型进行了针对域特定视频字幕任务的微调,在不同字幕领域的准确性评估中实现了最高的平均准确率。
模型变体
项目提供了多个模型变体来满足不同需求:
Diffusion Forcing 模型系列
- SkyReels-V2-DF-1.3B-540P: 低参数版本,推荐分辨率 544×960,97帧
- SkyReels-V2-DF-14B-540P: 标准版本,适合540P视频生成
- SkyReels-V2-DF-14B-720P: 高分辨率版本,支持720P视频生成
文本转视频模型(T2V)
- SkyReels-V2-T2V-14B-540P: 专门用于文本转视频生成
- SkyReels-V2-T2V-14B-720P: 高分辨率文本转视频模型
图像转视频模型(I2V)
- SkyReels-V2-I2V-1.3B-540P: 轻量级图像转视频模型
- SkyReels-V2-I2V-14B-540P: 标准图像转视频模型
- SkyReels-V2-I2V-14B-720P: 高分辨率图像转视频模型
技术创新点
1. 强化学习优化
为了避免其他指标的退化,如文本对齐和视频质量,该团队确保偏好数据对在文本对齐和视频质量方面具有可比性,而只有运动质量不同。利用这个增强的数据集,首先训练一个专门的奖励模型来捕捉配对样本之间的通用运动质量差异。
2. 多阶段训练流程
项目采用了四阶段训练增强流程:
- 初始概念平衡监督微调(SFT):提高基线质量
- 运动特定强化学习(RL)训练:解决动态伪影问题
- Diffusion Forcing框架:实现长视频合成
- 最终高质量SFT:精炼视觉保真度
3. 分辨率渐进训练
实施了540p和720p分辨率的两个连续高质量监督微调(SFT)阶段,初始SFT阶段在预训练后但在强化学习阶段之前立即进行。
性能表现
人工评估结果
在SkyReels-Bench评估中:
- 文本转视频模型:在指令遵循(3.15)方面表现优异,在一致性(3.35)方面保持竞争优势
- 图像转视频模型:SkyReels-V2-I2V平均得分3.29,可与专有模型Kling-1.6(3.4)和Runway-Gen4(3.39)相媲美
自动化评估结果
在V-Bench评估中: SkyReels-V2超越了所有比较模型,包括HunyuanVideo-13B和Wan2.1-14B,获得了最高的总分(83.9%)和质量分(84.7%)。
应用场景
1. 故事生成
可以生成理论上无限长度的叙事视频内容
2. 图像转视频合成
将静态图像转换为动态视频序列
3. 摄像机导演功能
提供专业的摄像机运动和构图控制
4. 多主体一致性视频生成
通过SkyReels-A2系统实现多元素组合视频生成
系统要求
硬件要求
- 1.3B模型:生成540P视频需要约14.7GB峰值VRAM
- 14B模型:生成540P视频需要约51.2GB峰值VRAM(Diffusion Forcing)或43.4GB(T2V/I2V)
软件环境
- Python 3.10.12
- 支持单GPU和多GPU推理
- 集成了xDiT USP加速推理
安装和使用
基础安装
# 克隆仓库
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
# 安装依赖
pip install -r requirements.txt
文本转视频生成示例
model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
无限长度视频生成示例
model_id=Skywork/SkyReels-V2-DF-14B-540P
# 同步推理生成10秒视频
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
高级功能
1. 视频扩展
支持在现有视频基础上进行扩展,实现更长的视频内容
2. 起始/结束帧控制
可以指定视频的开始帧和结束帧,实现精确的视频控制
3. 提示词增强器
基于Qwen2.5-32B-Instruct实现的提示词增强功能,可以将简短提示扩展为更详细的描述
4. 多GPU加速
支持通过xDiT USP进行多GPU并行推理,大幅提升生成速度
相关项目
- SkyReels-A2:可控视频生成框架,能够组装任意视觉元素
- SkyReels-V1:首个开源以人为中心的视频基础模型
- SkyCaptioner-V1:专门的视频字幕生成模型
开源信息
- GitHub仓库:https://github.com/SkyworkAI/SkyReels-V2
- Hugging Face模型:https://huggingface.co/collections/Skywork/skyreels-v2-6801b1b93df627d441d0d0d9
- 技术论文:https://arxiv.org/pdf/2504.13074
- 在线体验:https://www.skyreels.ai/home
总结
SkyReels-V2 代表了AI视频生成技术的重大突破,特别是在长形式视频合成方面。它不仅在技术上实现了创新,更为创意应用如戏剧制作和虚拟电子商务等领域提供了新的可能性,推动了可控视频生成的边界。