Wrapper ComfyUI pour les modèles WanVideo, prenant en charge la série de modèles de génération de vidéos IA WanVideo 2.1 d'Alibaba.
Présentation Détaillée du Projet ComfyUI-WanVideoWrapper
Aperçu du Projet
ComfyUI-WanVideoWrapper est un plugin wrapper développé spécifiquement pour la plateforme ComfyUI, principalement destiné à prendre en charge WanVideo et les modèles associés. Ce projet est développé et maintenu par kijai, servant d'environnement "bac à sable" expérimental pour tester et implémenter rapidement de nouveaux modèles et fonctionnalités de génération de vidéo par IA.
Contexte du Projet
En raison de la complexité du code source de ComfyUI et du manque d'expérience en codage du développeur, il est souvent plus facile et plus rapide d'implémenter de nouveaux modèles et fonctionnalités dans un wrapper indépendant plutôt que directement dans le système central. Ce projet est né de cette philosophie.
Philosophie de Conception
- Plateforme de test rapide : Un environnement de validation rapide pour les nouvelles fonctionnalités.
- Bac à sable personnel : Une plateforme expérimentale ouverte à tous.
- Éviter les problèmes de compatibilité : Fonctionne de manière indépendante sans affecter la stabilité du système principal.
- Développement continu : Le code est toujours en développement et peut contenir des problèmes.
Fonctionnalités Clés
Série de Modèles WanVideo Pris en Charge
Ce wrapper prend principalement en charge la série de modèles Wan 2.1 open-source d'Alibaba, un modèle avancé de génération de vidéo avec des performances de pointe :
Caractéristiques des Modèles Wan 2.1 :
- Performances élevées : Surpasse constamment les modèles open-source existants et les solutions commerciales les plus avancées dans plusieurs benchmarks.
- Génération de texte bilingue : Le premier modèle vidéo capable de générer du texte en chinois et en anglais, avec de puissantes capacités de génération de texte.
- Prise en charge multi-résolution : Prend en charge la génération de vidéos 480P et 720P.
- Simulation physique : Génère des vidéos capables de simuler avec précision les effets physiques du monde réel et les interactions d'objets réels.
Spécifications des Modèles :
Modèle T2V-1.3B :
- Ne nécessite que 8,19 Go de VRAM, compatible avec presque tous les GPU grand public.
- Peut générer une vidéo 480P de 5 secondes en environ 4 minutes sur une RTX 4090.
- Léger, adapté aux utilisateurs ordinaires.
Modèles T2V-14B/I2V-14B :
- Atteint des performances SOTA (State-Of-The-Art) parmi les modèles open-source et propriétaires.
- Prend en charge les scènes visuelles complexes et les modes de mouvement.
- Convient aux applications professionnelles.
Principaux Modules Fonctionnels
- Texte vers Vidéo (Text-to-Video)
- Image vers Vidéo (Image-to-Video)
- Édition Vidéo
- Texte vers Image
- Vidéo vers Audio
Architecture Technique
Composants Technologiques Clés
Wan2.1 est conçu sur le paradigme dominant du transformateur de diffusion et réalise une amélioration significative des capacités de génération grâce à une série d'innovations :
- Wan-VAE : Une nouvelle architecture VAE causale 3D conçue spécifiquement pour la génération de vidéo, améliorant la compression spatio-temporelle, réduisant l'utilisation de la mémoire et assurant la causalité temporelle grâce à diverses stratégies.
- Stratégies d'entraînement évolutives
- Construction de données à grande échelle
- Métriques d'évaluation automatisées
Caractéristiques de Performance
- Efficacité de la mémoire : Wan-VAE peut encoder et décoder des vidéos 1080P de longueur illimitée sans perdre les informations temporelles historiques.
- Compatibilité GPU : Prend en charge l'exécution sur des GPU grand public.
- Capacité de traitement : Prend en charge la génération de vidéos longues et le traitement de scènes complexes.
Installation et Utilisation
Étapes d'Installation
Cloner le dépôt :
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
Installer les dépendances :
pip install -r requirements.txt
Pour une installation portable :
python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
Téléchargement des Modèles
Adresses de téléchargement des modèles principaux :
- Modèles standard : https://huggingface.co/Kijai/WanVideo_comfy/tree/main
- Modèles optimisés FP8 (recommandé) : https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled
Structure des Fichiers Modèles
Placez les fichiers modèles téléchargés dans les répertoires ComfyUI correspondants :
- Text encoders →
ComfyUI/models/text_encoders
- Clip vision →
ComfyUI/models/clip_vision
- Transformer (modèle vidéo principal) →
ComfyUI/models/diffusion_models
- VAE →
ComfyUI/models/vae
Modèles Étendus Pris en Charge
Ce wrapper prend également en charge plusieurs modèles de génération de vidéo par IA associés :
- SkyReels : Modèle de génération de vidéo développé par Skywork.
- WanVideoFun : Modèle orienté divertissement développé par l'équipe PAI d'Alibaba.
- ReCamMaster : Modèle de reconstruction vidéo développé par Kuaishou VGI.
- VACE : Modèle d'amélioration vidéo du laboratoire de vision d'Alibaba.
- Phantom : Modèle de génération de vidéo multi-sujets de ByteDance Research.
- ATI : Modèle de transfert d'attention de ByteDance Research.
- Uni3C : Modèle unifié de compréhension vidéo de l'Académie DAMO d'Alibaba.
- EchoShot : Modèle de génération de vidéos de portraits multi-plans.
- MultiTalk : Modèle de génération de vidéos de dialogues multi-personnes.
Cas d'Utilisation et Exemples
Test de Génération de Vidéo Longue
- Test de 1025 images : Utilisation d'une fenêtre de 81 images avec un chevauchement de 16 images.
- Modèle T2V 1.3B : Moins de 5 Go de VRAM utilisés sur une carte graphique 5090, temps de génération de 10 minutes.
- Optimisation de la mémoire : Environ 16 Go de mémoire utilisés pour une spécification 512x512x81, prenant en charge 20/40 blocs d'offload.
Optimisation d'Accélération TeaCache
- La nouvelle version du seuil doit être 10 fois supérieure à l'original.
- Plage de coefficients recommandée : 0,25-0,30.
- Les étapes initiales peuvent commencer à partir de 0.
- Pour des valeurs de seuil plus agressives, il est conseillé de commencer plus tard pour éviter de sauter les premières étapes.
Avantages Techniques
- Écosystème Open Source : Entièrement open source, y compris le code source et tous les modèles.
- Performances de Pointe : Surpasse constamment les modèles open-source existants et les solutions commerciales les plus avancées dans plusieurs benchmarks internes et externes.
- Couverture Complète : Couvre de multiples applications en aval, y compris la conversion image-vidéo, l'édition vidéo guidée par des instructions et la génération de vidéos personnalisées, couvrant jusqu'à 8 tâches.
- Adapté au Grand Public : Le modèle 1.3B démontre une efficacité remarquable en termes de ressources, ne nécessitant que 8,19 Go de VRAM, compatible avec une large gamme de GPU grand public.
État et Développement du Projet
Développement Futur
- N'est pas destiné à concurrencer les workflows natifs ou à offrir une alternative.
- L'objectif final est d'aider à explorer les modèles et fonctionnalités nouvellement publiés.
- Certaines fonctionnalités pourraient être intégrées au système central de ComfyUI.
Recommandations d'Utilisation
Scénarios Applicables
- Recherche et expérimentation en génération de vidéo par IA.
- Test et validation rapides de nouveaux modèles.
- Création de contenu vidéo créatif.
- Usages éducatifs et d'apprentissage.
Précautions
- Le code est en développement continu et peut présenter des problèmes de stabilité.
- Il est recommandé de tester et d'utiliser dans un environnement isolé.
- Nécessite un certain bagage technique et des ressources GPU.
Conclusion
ComfyUI-WanVideoWrapper est un wrapper d'outils innovant pour la génération de vidéo par IA, offrant aux utilisateurs un accès pratique aux dernières technologies de génération de vidéo. Basé sur la série de modèles open-source Wan 2.1 d'Alibaba, ce projet maintient son leadership technologique tout en incarnant l'esprit de collaboration de la communauté open source. Bien que le projet soit encore en développement continu, ses fonctionnalités puissantes et son large support de modèles en font un outil important dans le domaine de la génération de vidéo par IA.