ComfyUI 的 WanVideo 模型包裝器,支援阿里巴巴 WanVideo 2.1 系列 AI 影片生成模型

Apache-2.0PythonComfyUI-WanVideoWrapperkijai 4.4k Last Updated: September 13, 2025

ComfyUI-WanVideoWrapper 專案詳細介紹

專案概述

ComfyUI-WanVideoWrapper 是一個專為 ComfyUI 平台開發的包裝器外掛程式,主要用於支援 WanVideo 和相關模型。該專案由 kijai 開發維護,作為一個實驗性的「沙盒」環境,用於快速測試和實現新的 AI 影片生成模型和功能。

專案背景

由於 ComfyUI 核心程式碼的複雜性以及開發者缺乏編碼經驗,在許多情況下,在獨立的包裝器中實現新模型和功能要比直接在核心系統中實現更容易、更快速。這個專案正是基於這樣的理念誕生的。

設計理念

  • 快速測試平台:作為新功能的快速驗證環境
  • 個人沙盒:開放給所有人使用的實驗平台
  • 避免相容性問題:獨立運行,不影響主系統穩定性
  • 持續開發:程式碼始終處於開發狀態,可能存在問題

核心功能

支援的 WanVideo 模型系列

該包裝器主要支援阿里巴巴開源的 Wan 2.1 系列模型,這是一個先進的影片生成模型,具有領先的效能表現:

Wan 2.1 模型特點:

  • 高效能表現:在多個基準測試中持續優於現有的開源模型和最先進的商業解決方案
  • 雙語文本生成:首個能夠生成中英文文本的影片模型,具有強大的文本生成能力
  • 多解析度支援:支援 480P 和 720P 影片生成
  • 物理模擬:生成能夠準確模擬真實世界物理效果和現實物體互動的影片

模型規格:

  1. T2V-1.3B 模型

    • 僅需 8.19 GB VRAM,相容幾乎所有消費級 GPU
    • 可在 RTX 4090 上約 4 分鐘內生成 5 秒 480P 影片
    • 輕量級,適合普通使用者使用
  2. T2V-14B/I2V-14B 模型

    • 在開源和閉源模型中都達到了 SOTA 效能
    • 支援複雜視覺場景和運動模式
    • 適合專業級應用

主要功能模組

  1. 文字轉影片 (Text-to-Video)
  2. 圖像轉影片 (Image-to-Video)
  3. 影片編輯
  4. 文字轉圖像
  5. 影片轉音訊

技術架構

核心技術組件

Wan2.1 基於主流的擴散變壓器範式設計,透過一系列創新實現了生成能力的顯著提升:

  1. Wan-VAE:專為影片生成設計的新型 3D 因果 VAE 架構,透過多種策略改善時空壓縮,減少記憶體使用並確保時間因果性
  2. 可擴展訓練策略
  3. 大規模資料建構
  4. 自動化評估指標

效能特點

  • 記憶體效率:Wan-VAE 可以編碼和解碼無限長度的 1080P 影片而不丟失歷史時間資訊
  • GPU 相容性:支援消費級 GPU 運行
  • 處理能力:支援長影片生成和複雜場景處理

安裝和使用

安裝步驟

  1. 複製儲存庫
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
  1. 安裝依賴項
pip install -r requirements.txt

對於可攜式安裝:

python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt

模型下載

主要模型下載地址:

模型檔案結構

將下載的模型檔案放置在對應的 ComfyUI 目錄:

  • Text encodersComfyUI/models/text_encoders
  • Clip visionComfyUI/models/clip_vision
  • Transformer (主要影片模型) → ComfyUI/models/diffusion_models
  • VAEComfyUI/models/vae

支援的擴充模型

該包裝器還支援多個相關的 AI 影片生成模型:

  1. SkyReels:Skywork 開發的影片生成模型
  2. WanVideoFun:阿里巴巴 PAI 團隊開發的娛樂向模型
  3. ReCamMaster:快手 VGI 開發的影片重建模型
  4. VACE:阿里巴巴視覺實驗室的影片增強模型
  5. Phantom:字節跳動研究院的多主體影片生成模型
  6. ATI:字節跳動研究院的注意力傳遞模型
  7. Uni3C:阿里巴巴達摩院的統一影片理解模型
  8. EchoShot:多鏡頭肖像影片生成模型
  9. MultiTalk:多人對話影片生成模型

應用案例和範例

長影片生成測試

  • 1025 影格測試:使用 81 影格視窗大小,16 影格重疊
  • 1.3B T2V 模型:在 5090 顯示卡上使用不到 5GB VRAM,生成時間 10 分鐘
  • 記憶體最佳化:512x512x81 規格下約使用 16GB 記憶體,支援 20/40 塊 offload

TeaCache 加速最佳化

  • 新版本閾值設定應為原來的 10 倍
  • 推薦係數範圍:0.25-0.30
  • 起始步驟可以從 0 開始
  • 更激進的閾值值建議稍後開始以避免早期步驟跳過

技術優勢

  1. 開源生態系:完全開源,包括原始碼和所有模型
  2. 效能領先:在多個內部和外部基準測試中始終優於現有開源模型以及最先進的商業解決方案
  3. 全面涵蓋:涵蓋多個下游應用,包括圖像轉影片、指令引導的影片編輯和個人影片生成,涵蓋多達 8 個任務
  4. 消費級友善:1.3B 模型展現出卓越的資源效率,僅需 8.19GB VRAM,相容廣泛的消費級 GPU

專案狀態和發展

未來發展

  • 不是為了與原生工作流程競爭或提供替代方案
  • 最終目標是幫助探索新發布的模型和功能
  • 部分功能可能會整合到 ComfyUI 核心系統中

使用建議

適用情境

  • AI 影片生成研究和實驗
  • 新模型快速測試和驗證
  • 創意影片內容製作
  • 教育和學習用途

注意事項

  • 程式碼處於持續開發狀態,可能存在穩定性問題
  • 建議在獨立環境中測試使用
  • 需要一定的技術背景和 GPU 資源

總結

ComfyUI-WanVideoWrapper 是一個創新的 AI 影片生成工具包裝器,為使用者提供了接觸最新影片生成技術的便捷途徑。基於阿里巴巴開源的 Wan 2.1 系列模型,該專案在保持技術領先性的同時,也體現了開源社群的協作精神。雖然專案仍在持續開發中,但其強大的功能和廣泛的模型支援使其成為 AI 影片生成領域的重要工具。

Star History Chart