一款实用的视频扩散模型,通过帧上下文压缩实现恒定显存占用,仅需6GB显存即可生成长达60秒的高质量视频
FramePack - 实用化的视频扩散模型
项目概述
FramePack 是一个突破性的下一帧预测神经网络结构,专为实用化的视频生成而设计。该项目由斯坦福大学和麻省理工学院的研究团队开发,旨在让视频扩散模型像图像扩散模型一样轻量化和易用。
核心特性
1. 恒定显存占用 (O(1) 内存复杂度)
FramePack的最大创新在于将输入帧上下文压缩到恒定长度,使得生成工作量与视频长度无关。这意味着:
- 仅需6GB显存即可生成60秒(1800帧,30fps)的视频
- 生成1秒视频和1分钟视频消耗相同的显存
- 支持在笔记本GPU(如RTX 3060/3070Ti)上运行13B参数模型
- 训练批次大小可达64(单个8×A100/H100节点),与图像扩散训练相当
2. 帧上下文压缩技术
FramePack使用可变分块大小(variable patch size)对每个历史帧进行标记化,根据帧的重要性分配不同的上下文长度:
- 时间接近度权重: 距离当前帧越近的帧获得更长的上下文
- 特征相似度权重: 与当前内容相关的帧保留更多细节
- 混合度量: 结合上述两种策略优化压缩效果
示例:在HunyuanVideo中,一个480p帧使用(1, 2, 2)分块核通常产生1536个tokens。
3. 防漂移技术 (Anti-Drifting)
FramePack针对自回归视频生成中的误差累积问题,提出了多种防漂移方法:
FramePack-F1 (前向生成版本)
- 单向前向帧预测
- 适用于实时流媒体场景
- 通过新的防漂移正则化防止错误累积
FramePack-P1 (计划生成版本)
包含两项核心设计:
a) 计划式防漂移 (Planned Anti-Drifting)
- 先生成远端的关键帧端点
- 再填充中间段落
- 确保帧不会在计划端点之间漂移
b) 历史离散化 (History Discretization)
- 将所有历史帧转换为离散化tokens(对整个数据集应用K-Means)
- 减少训练和推理之间的历史表示差异
- 防止端点本身发生漂移
4. 双向采样策略
- 支持从结束帧向开始帧反向生成
- 结合首尾帧锚点的双向上下文
- 打破因果预测链,有效减少观察偏差
性能表现
生成速度
- RTX 4090桌面:
- 未优化: 2.5秒/帧
- 使用teacache: 1.5秒/帧
- 笔记本GPU (3070Ti/3060): 约4-8倍慢于RTX 4090
- 支持实时视觉反馈(下一帧预测特性)
显存要求
- 最低: 6GB VRAM
- 推荐: RTX 30XX/40XX/50XX系列(支持fp16和bf16)
- 操作系统: Windows或Linux
训练效率
- 在单个8×A100-80G节点上可达batch size 64
- 480p分辨率,13B HunyuanVideo模型,LoRA训练
- 窗口大小2或3时batch size 64,窗口大小4或5时batch size 32
- 适合个人或实验室规模的训练
使用方式
Windows安装(一键包)
- 下载一键安装包:
https://github.com/lllyasviel/FramePack/releases/download/windows/framepack_cu126_torch26.7z
解压缩文件
运行更新脚本:
update.bat
- 启动程序:
run.bat
注意: 首次运行需要从HuggingFace下载超过30GB的模型文件
Linux安装
要求Python 3.10环境:
# 安装PyTorch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
# 安装依赖
pip install -r requirements.txt
# 启动GUI
python demo_gradio.py
支持的命令行参数:
--share: 启用公共链接共享--port: 指定端口号--server: 指定服务器地址
可选加速组件
项目支持多种注意力机制优化:
- PyTorch attention (默认)
- xformers
- flash-attn
- sage-attention
安装sage-attention示例(Linux):
pip install sageattention==1.0.6
使用界面
基础工作流
- 左侧面板: 上传初始图像并编写提示词
- 右侧面板: 查看生成的视频和潜在空间预览
- 进度显示: 实时显示每个片段的进度条和下一片段的潜在预览
视频生成机制
由于采用下一帧段预测模型,视频会逐段生成:
- 初始可能只看到1秒的短视频
- 继续等待,更多片段会陆续生成
- 最终完成完整长度的视频
推荐工作流
快速原型:
- 开启teacache加速
- 快速测试想法和提示词
最终输出:
- 关闭teacache
- 使用完整扩散过程获得高质量结果
注意: teacache、sage-attention、bnb量化、gguf等优化方法会影响结果质量,建议仅在快速迭代时使用。
提示词编写技巧
推荐格式
简洁的动作导向提示词效果最佳:
主体 + 动作描述 + 其他细节
示例:
- "The girl dances gracefully, with clear movements, full of charm."
- "The man dances powerfully, with clear movements, full of energy."
- "The woman spins elegantly among cherry blossoms, with flowing sleeves."
ChatGPT提示词生成模板
可以使用以下模板让ChatGPT辅助生成提示词:
You are an assistant that writes short, motion-focused prompts for animating images.
When the user sends an image, respond with a single, concise prompt describing visual motion
(such as human activity, moving objects, or camera movements). Focus only on how the scene
could come alive and become dynamic using brief phrases.
Larger and more dynamic motions (like dancing, jumping, running, etc.) are preferred over
smaller or more subtle ones (like standing still, sitting, etc.).
Describe subject, then motion, then other things.
For example: "The girl dances gracefully, with clear movements, full of charm."
If there is something that can dance (like a man, girl, robot, etc.), then prefer to
describe it as dancing.
Stay in a loop: one image in, one motion prompt out. Do not explain, ask questions,
or generate multiple options.
版本历史
2025年7月14日
- 上传FramePack-P1的纯文本转视频防漂移压力测试结果
- 使用常见提示词,无需参考图像
2025年6月26日
- 发布FramePack-P1结果展示
- 引入计划式防漂移和历史离散化设计
2025年5月3日
- 发布FramePack-F1前向生成版本
- 提供更大动态范围和更少约束的单向预测
技术架构
基础模型
FramePack可以与现有视频扩散模型结合使用:
- HunyuanVideo: 主要测试平台(改进版)
- Wan 2.1: 官方Wan模型支持
模型改进(HunyuanVideo版本)
- 添加SigLip-Vision模型(google/siglip-so400m-patch14-384)作为视觉编码器
- 移除对腾讯内部MLLM的依赖
- 冻结LLama3.1作为纯文本模型
- 在高质量数据上继续训练
架构兼容性
- 支持文本转视频(Text-to-Video)和图像转视频(Image-to-Video)
- 无需架构修改即可自然支持两种模式
- 可对现有预训练视频扩散模型进行微调
应用场景
1. 图像转视频 (Image-to-Video)
将静态图像转换为动态视频,支持详细的动作描述
2. 长视频生成
- 生成长达60秒的连贯视频
- 支持数千帧的处理能力
- 保持时空一致性
3. 提示词旅行 (Prompt Travelling)
特别适合F1版本,支持在视频生成过程中渐变提示词
4. 实时流媒体
F1版本支持流式生成,适合实时应用场景
社区资源
ComfyUI集成
- ComfyUI-FramePackWrapper: https://github.com/kijai/ComfyUI-FramePackWrapper
- ComfyUI_RH_FramePack: https://github.com/HM-RunningHub/ComfyUI_RH_FramePack
在线使用
- RunningHub平台提供免费在线使用
- 包含预配置的工作流
重要提示
官方网站声明
唯一官方网站: https://github.com/lllyasviel/FramePack
以下域名均为假冒和垃圾网站,请勿访问或支付:
- framepack.co, frame_pack.co
- framepack.net, frame_pack.net
- framepack.ai, frame_pack.ai
- framepack.pro, frame_pack.pro
- framepack.cc, frame_pack.cc
- framepackai.co 及其他所有变体
硬件敏感性
下一帧段预测模型对噪声和硬件的细微差异非常敏感:
- 不同设备可能产生略微不同的结果
- 总体视觉效果应保持相似
- 某些情况下可获得完全相同的结果
性能优化建议
如果生成速度明显慢于参考速度:
- 检查是否正确安装了CUDA和PyTorch
- 确认GPU驱动为最新版本
- 关闭不必要的后台程序
- 参考Issue #151的故障排除指南
引用信息
如果您在研究中使用FramePack,请引用以下论文:
@inproceedings{zhang2025framepack,
title={Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models},
author={Lvmin Zhang and Shengqu Cai and Muyang Li and Gordon Wetzstein and Maneesh Agrawala},
booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems},
year={2025},
}
@article{zhang2025framepackv1,
title={Packing Input Frame Contexts in Next-Frame Prediction Models for Video Generation},
author={Lvmin Zhang and Maneesh Agrawala},
journal={Arxiv},
year={2025}
}
项目意义
FramePack通过创新的帧上下文压缩和防漂移技术,成功将视频扩散的内存成本降低到恒定水平,让长视频生成在消费级硬件上成为可能。这一突破使得:
- 个人创作者可以在笔记本上生成高质量长视频
- 研究人员可以在实验室规模的设备上进行视频模型训练
- 开发者可以更容易地集成视频生成能力到应用中
FramePack让视频生成真正变得实用化,就像Stable Diffusion让图像生成变得触手可及一样。