ComfyUIのWanVideoモデルラッパー。Alibaba WanVideo 2.1シリーズのAI動画生成モデルをサポート。
ComfyUI-WanVideoWrapper プロジェクト詳細
プロジェクト概要
ComfyUI-WanVideoWrapper は、ComfyUI プラットフォーム向けに特別に開発されたラッパープラグインで、主に WanVideo および関連モデルをサポートすることを目的としています。このプロジェクトは kijai によって開発・保守されており、新しい AI ビデオ生成モデルや機能を迅速にテストし、実装するための実験的な「サンドボックス」環境として機能します。
プロジェクト背景
ComfyUI のコアコードの複雑さ、および開発者のコーディング経験の不足により、多くの場合、新しいモデルや機能をコアシステムに直接実装するよりも、独立したラッパーで実装する方が簡単かつ迅速です。このプロジェクトは、このような理念に基づいて誕生しました。
設計思想
- 迅速なテストプラットフォーム:新機能の迅速な検証環境として
- 個人的なサンドボックス:誰でも利用できる実験プラットフォーム
- 互換性問題の回避:独立して動作し、メインシステムの安定性に影響を与えない
- 継続的な開発:コードは常に開発状態にあり、問題が発生する可能性があります
主要機能
サポートされるWanVideoモデルシリーズ
このラッパーは、主に Alibaba がオープンソース化した Wan 2.1 シリーズモデルをサポートしています。これは、優れた性能を持つ先進的なビデオ生成モデルです。
Wan 2.1 モデルの特長:
- 高性能:複数のベンチマークテストにおいて、既存のオープンソースモデルおよび最先端の商用ソリューションを継続的に上回る
- バイリンガルテキスト生成:中国語と英語のテキストを生成できる初のビデオモデルであり、強力なテキスト生成能力を持つ
- マルチ解像度対応:480P および 720P のビデオ生成をサポート
- 物理シミュレーション:現実世界の物理効果や現実の物体との相互作用を正確にシミュレートできるビデオを生成
モデル仕様:
T2V-1.3B モデル:
- わずか 8.19 GB の VRAM で動作し、ほぼすべてのコンシューマー向け GPU と互換性がある
- RTX 4090 で約4分で5秒の480Pビデオを生成可能
- 軽量で、一般ユーザーに適している
T2V-14B/I2V-14B モデル:
- オープンソースおよびクローズドソースモデルの両方で SOTA (State-Of-The-Art) 性能を達成
- 複雑な視覚シーンとモーションパターンをサポート
- プロフェッショナルなアプリケーションに適している
主要機能モジュール
- テキストからビデオ (Text-to-Video)
- 画像からビデオ (Image-to-Video)
- ビデオ編集
- テキストから画像
- ビデオからオーディオ
技術アーキテクチャ
コア技術コンポーネント
Wan2.1 は、主流の拡散トランスフォーマーパラダイムに基づいて設計されており、一連の革新を通じて生成能力を大幅に向上させています。
- Wan-VAE:ビデオ生成のために特別に設計された新しい3D因果VAEアーキテクチャ。複数の戦略により時空間圧縮を改善し、メモリ使用量を削減し、時間的因果性を確保する
- スケーラブルなトレーニング戦略
- 大規模データ構築
- 自動評価指標
性能特性
- メモリ効率:Wan-VAE は、履歴時間情報を失うことなく、無限長の1080Pビデオをエンコードおよびデコードできる
- GPU互換性:コンシューマー向け GPU での実行をサポート
- 処理能力:長尺ビデオ生成と複雑なシーン処理をサポート
インストールと使用方法
インストール手順
リポジトリのクローン:
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
依存関係のインストール:
pip install -r requirements.txt
ポータブルインストールの場合:
bash python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
モデルのダウンロード
主要モデルのダウンロード先:
- 標準モデル:https://huggingface.co/Kijai/WanVideo_comfy/tree/main
- FP8最適化モデル(推奨):https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled
モデルファイル構造
ダウンロードしたモデルファイルを対応する ComfyUI ディレクトリに配置します。
- Text encoders →
ComfyUI/models/text_encoders
- Clip vision →
ComfyUI/models/clip_vision
- Transformer (主要ビデオモデル) →
ComfyUI/models/diffusion_models
- VAE →
ComfyUI/models/vae
サポートされる拡張モデル
このラッパーは、複数の関連する AI ビデオ生成モデルもサポートしています。
- SkyReels:Skywork が開発したビデオ生成モデル
- WanVideoFun:Alibaba PAI チームが開発したエンターテイメント向けモデル
- ReCamMaster:Kuaishou VGI が開発したビデオ再構築モデル
- VACE:Alibaba Vision Lab のビデオ強調モデル
- Phantom:ByteDance Research のマルチエージェントビデオ生成モデル
- ATI:ByteDance Research のアテンション転送モデル
- Uni3C:Alibaba DAMO Academy の統一ビデオ理解モデル
- EchoShot:マルチショットポートレートビデオ生成モデル
- MultiTalk:複数人会話ビデオ生成モデル
アプリケーション事例とサンプル
長尺ビデオ生成テスト
- 1025フレームテスト:81フレームのウィンドウサイズ、16フレームのオーバーラップを使用
- 1.3B T2Vモデル:5090グラフィックカードで5GB未満のVRAMを使用し、生成時間10分
- メモリ最適化:512x512x81の仕様で約16GBのメモリを使用し、20/40ブロックのオフロードをサポート
TeaCache高速化最適化
- 新バージョンのしきい値設定は元の10倍であるべき
- 推奨係数範囲:0.25-0.30
- 開始ステップは0から開始可能
- より積極的なしきい値は、初期ステップのスキップを避けるため、後から開始することを推奨
技術的優位性
- オープンソースエコシステム:ソースコードとすべてのモデルを含む完全なオープンソース
- 性能の優位性:複数の内部および外部ベンチマークテストにおいて、既存のオープンソースモデルおよび最先端の商用ソリューションを常に上回る
- 包括的なカバー範囲:画像からビデオ、指示によるビデオ編集、パーソナルビデオ生成など、最大8つのタスクを含む複数のダウンストリームアプリケーションをカバー
- コンシューマーフレンドリー:1.3Bモデルは優れたリソース効率を示し、わずか8.19GBのVRAMで動作し、幅広いコンシューマー向けGPUと互換性がある
プロジェクトの現状と開発
将来の開発
- ネイティブワークフローと競合したり、代替案を提供したりすることを目的としていない
- 最終目標は、新しくリリースされたモデルと機能の探索を支援すること
- 一部の機能は ComfyUI コアシステムに統合される可能性がある
使用上の注意
適用シナリオ
- AI ビデオ生成の研究と実験
- 新モデルの迅速なテストと検証
- クリエイティブなビデオコンテンツ制作
- 教育および学習用途
注意事項
- コードは継続的に開発中であり、安定性の問題が発生する可能性がある
- 独立した環境でのテスト使用を推奨
- ある程度の技術的背景と GPU リソースが必要
まとめ
ComfyUI-WanVideoWrapper は、革新的な AI ビデオ生成ツールラッパーであり、ユーザーに最新のビデオ生成技術に触れる便利なアクセス方法を提供します。Alibaba がオープンソース化した Wan 2.1 シリーズモデルに基づいて、このプロジェクトは技術的優位性を維持しつつ、オープンソースコミュニティの協力精神も体現しています。プロジェクトはまだ継続的に開発中ですが、その強力な機能と広範なモデルサポートにより、AI ビデオ生成分野における重要なツールとなっています。