kijai/ComfyUI-WanVideoWrapper View GitHub Homepage for Latest Official Releases

ComfyUI的WanVideo模型包装器，支持阿里巴巴WanVideo 2.1系列AI视频生成模型

Apache-2.0PythonComfyUI-WanVideoWrapperkijai 5.0k Last Updated: October 26, 2025

ComfyUI-WanVideoWrapper 项目详细介绍

项目概述

ComfyUI-WanVideoWrapper 是一个专为 ComfyUI 平台开发的包装器插件，主要用于支持 WanVideo 和相关模型。该项目由 kijai 开发维护，作为一个实验性的"沙盒"环境，用于快速测试和实现新的AI视频生成模型和功能。

项目背景

由于 ComfyUI 核心代码的复杂性以及开发者缺乏编码经验，在很多情况下，在独立的包装器中实现新模型和功能要比直接在核心系统中实现更容易、更快速。这个项目正是基于这样的理念诞生的。

设计理念

快速测试平台：作为新功能的快速验证环境
个人沙盒：开放给所有人使用的实验平台
避免兼容性问题：独立运行，不影响主系统稳定性
持续开发：代码始终处于开发状态，可能存在问题

核心功能

支持的WanVideo模型系列

该包装器主要支持阿里巴巴开源的 Wan 2.1 系列模型，这是一个先进的视频生成模型，具有领先的性能表现：

Wan 2.1 模型特点：

高性能表现：在多个基准测试中持续优于现有的开源模型和最先进的商业解决方案
双语文本生成：首个能够生成中英文文本的视频模型，具有强大的文本生成能力
多分辨率支持：支持 480P 和 720P 视频生成
物理仿真：生成能够准确模拟真实世界物理效果和现实物体交互的视频

模型规格：

T2V-1.3B 模型：
- 仅需 8.19 GB VRAM，兼容几乎所有消费级GPU
- 可在 RTX 4090 上约4分钟内生成5秒480P视频
- 轻量级，适合普通用户使用
T2V-14B/I2V-14B 模型：
- 在开源和闭源模型中都达到了SOTA性能
- 支持复杂视觉场景和运动模式
- 适合专业级应用

主要功能模块

文本转视频 (Text-to-Video)
图像转视频 (Image-to-Video)
视频编辑
文本转图像
视频转音频

技术架构

核心技术组件

Wan2.1 基于主流的扩散变压器范式设计，通过一系列创新实现了生成能力的显著提升：

Wan-VAE：专为视频生成设计的新型3D因果VAE架构，通过多种策略改善时空压缩，减少内存使用并确保时间因果性
可扩展训练策略
大规模数据构建
自动化评估指标

性能特点

内存效率：Wan-VAE 可以编码和解码无限长度的1080P视频而不丢失历史时间信息
GPU兼容性：支持消费级GPU运行
处理能力：支持长视频生成和复杂场景处理

安装和使用

安装步骤

克隆仓库：

git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git

安装依赖：

pip install -r requirements.txt

对于便携式安装：

python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt

模型下载

主要模型下载地址：

标准模型：https://huggingface.co/Kijai/WanVideo_comfy/tree/main
FP8优化模型（推荐）：https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled

模型文件结构

将下载的模型文件放置在对应的ComfyUI目录：

Text encoders → ComfyUI/models/text_encoders
Clip vision → ComfyUI/models/clip_vision
Transformer （主要视频模型） → ComfyUI/models/diffusion_models
VAE → ComfyUI/models/vae

支持的扩展模型

该包装器还支持多个相关的AI视频生成模型：

SkyReels：Skywork开发的视频生成模型
WanVideoFun：阿里巴巴PAI团队开发的娱乐向模型
ReCamMaster：快手VGI开发的视频重建模型
VACE：阿里巴巴视觉实验室的视频增强模型
Phantom：字节跳动研究院的多主体视频生成模型
ATI：字节跳动研究院的注意力传递模型
Uni3C：阿里巴巴达摩院的统一视频理解模型
EchoShot：多镜头肖像视频生成模型
MultiTalk：多人对话视频生成模型

应用案例和示例

长视频生成测试

1025帧测试：使用81帧窗口大小，16帧重叠
1.3B T2V模型：在5090显卡上使用不到5GB VRAM，生成时间10分钟
内存优化：512x512x81规格下约使用16GB内存，支持20/40块offload

TeaCache加速优化

新版本阈值设定应为原来的10倍
推荐系数范围：0.25-0.30
起始步骤可以从0开始
更激进的阈值值建议稍后开始以避免早期步骤跳过

技术优势

开源生态：完全开源，包括源代码和所有模型
性能领先：在多个内部和外部基准测试中始终优于现有开源模型以及最先进的商业解决方案
全面覆盖：涵盖多个下游应用，包括图像转视频、指令引导的视频编辑和个人视频生成，涵盖多达8个任务
消费级友好：1.3B模型展现出卓越的资源效率，仅需8.19GB VRAM，兼容广泛的消费级GPU

项目状态和发展

未来发展

不是为了与原生工作流程竞争或提供替代方案
最终目标是帮助探索新发布的模型和功能
部分功能可能会集成到ComfyUI核心系统中

使用建议

适用场景

AI视频生成研究和实验
新模型快速测试和验证
创意视频内容制作
教育和学习用途

注意事项

代码处于持续开发状态，可能存在稳定性问题
建议在独立环境中测试使用
需要一定的技术背景和GPU资源

总结

ComfyUI-WanVideoWrapper 是一个创新的AI视频生成工具包装器，为用户提供了接触最新视频生成技术的便捷途径。基于阿里巴巴开源的Wan 2.1系列模型，该项目在保持技术领先性的同时，也体现了开源社区的协作精神。虽然项目仍在持续开发中，但其强大的功能和广泛的模型支持使其成为AI视频生成领域的重要工具。