Wrapper de modelo WanVideo para ComfyUI, compatible con la serie 2.1 de modelos de generación de video con IA de Alibaba WanVideo.

Apache-2.0PythonComfyUI-WanVideoWrapperkijai 4.4k Last Updated: September 13, 2025

Introducción Detallada al Proyecto ComfyUI-WanVideoWrapper

Resumen del Proyecto

ComfyUI-WanVideoWrapper es un plugin wrapper desarrollado específicamente para la plataforma ComfyUI, diseñado principalmente para dar soporte a WanVideo y modelos relacionados. Este proyecto es desarrollado y mantenido por kijai, sirviendo como un entorno experimental de "sandbox" para probar e implementar rápidamente nuevos modelos y funcionalidades de generación de video con IA.

Antecedentes del Proyecto

Debido a la complejidad del código central de ComfyUI y a la falta de experiencia en codificación por parte del desarrollador, en muchos casos, implementar nuevos modelos y funcionalidades en un wrapper independiente es más fácil y rápido que hacerlo directamente en el sistema central. Este proyecto nació precisamente de esta filosofía.

Filosofía de Diseño

  • Plataforma de Prueba Rápida: Sirve como un entorno de validación rápida para nuevas funcionalidades.
  • Sandbox Personal: Una plataforma experimental abierta para el uso de todos.
  • Evitar Problemas de Compatibilidad: Funciona de forma independiente, sin afectar la estabilidad del sistema principal.
  • Desarrollo Continuo: El código está siempre en estado de desarrollo, por lo que pueden existir problemas.

Funcionalidades Principales

Serie de Modelos WanVideo Compatibles

Este wrapper soporta principalmente la serie de modelos Wan 2.1 de código abierto de Alibaba, un modelo avanzado de generación de video con un rendimiento líder:

Características del Modelo Wan 2.1:

  • Rendimiento de Alta Calidad: Supera consistentemente a los modelos de código abierto existentes y a las soluciones comerciales más avanzadas en múltiples pruebas de referencia.
  • Generación de Texto Bilingüe: El primer modelo de video capaz de generar texto en chino e inglés, con una potente capacidad de generación de texto.
  • Soporte Multirresolución: Soporta la generación de video en 480P y 720P.
  • Simulación Física: Genera videos que simulan con precisión los efectos físicos del mundo real y la interacción de objetos reales.

Especificaciones del Modelo:

  1. Modelo T2V-1.3B:
    • Requiere solo 8.19 GB de VRAM, compatible con casi todas las GPU de consumo.
    • Puede generar un video de 5 segundos en 480P en aproximadamente 4 minutos en una RTX 4090.
    • Ligero, adecuado para usuarios generales.
  2. Modelo T2V-14B/I2V-14B:
    • Alcanza un rendimiento SOTA (State-Of-The-Art) tanto en modelos de código abierto como cerrados.
    • Soporta escenas visuales complejas y patrones de movimiento.
    • Adecuado para aplicaciones de nivel profesional.

Módulos de Funcionalidad Principales

  1. Texto a Video (Text-to-Video)
  2. Imagen a Video (Image-to-Video)
  3. Edición de Video
  4. Texto a Imagen
  5. Video a Audio

Arquitectura Técnica

Componentes Tecnológicos Clave

Wan2.1 está diseñado basándose en el paradigma dominante del transformador de difusión, logrando una mejora significativa en la capacidad de generación a través de una serie de innovaciones:

  1. Wan-VAE: Una nueva arquitectura VAE causal 3D diseñada específicamente para la generación de video, que mejora la compresión espacio-temporal, reduce el uso de memoria y asegura la causalidad temporal mediante diversas estrategias.
  2. Estrategia de Entrenamiento Escalable
  3. Construcción de Datos a Gran Escala
  4. Métricas de Evaluación Automatizadas

Características de Rendimiento

  • Eficiencia de Memoria: Wan-VAE puede codificar y decodificar videos de longitud ilimitada en 1080P sin perder información temporal histórica.
  • Compatibilidad con GPU: Soporta la ejecución en GPU de consumo.
  • Capacidad de Procesamiento: Soporta la generación de videos largos y el procesamiento de escenas complejas.

Instalación y Uso

Pasos de Instalación

  1. Clonar el repositorio:

    git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
    
  2. Instalar dependencias:

    pip install -r requirements.txt
    

    Para instalación portátil:

    python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
    

Descarga de Modelos

Direcciones de descarga de los modelos principales:

Estructura de Archivos del Modelo

Coloque los archivos del modelo descargados en el directorio correspondiente de ComfyUI:

  • Text encodersComfyUI/models/text_encoders
  • Clip visionComfyUI/models/clip_vision
  • Transformer (modelo de video principal) → ComfyUI/models/diffusion_models
  • VAEComfyUI/models/vae

Modelos de Extensión Compatibles

Este wrapper también soporta varios modelos relacionados de generación de video con IA:

  1. SkyReels: Modelo de generación de video desarrollado por Skywork.
  2. WanVideoFun: Modelo orientado al entretenimiento desarrollado por el equipo PAI de Alibaba.
  3. ReCamMaster: Modelo de reconstrucción de video desarrollado por Kuaishou VGI.
  4. VACE: Modelo de mejora de video del Laboratorio de Visión de Alibaba.
  5. Phantom: Modelo de generación de video multi-agente del Instituto de Investigación ByteDance.
  6. ATI: Modelo de transferencia de atención del Instituto de Investigación ByteDance.
  7. Uni3C: Modelo unificado de comprensión de video de Alibaba DAMO Academy.
  8. EchoShot: Modelo de generación de videos de retratos multi-toma.
  9. MultiTalk: Modelo de generación de videos de diálogo multi-persona.

Casos de Uso y Ejemplos

Prueba de Generación de Video Largo

  • Prueba de 1025 fotogramas: Utilizando un tamaño de ventana de 81 fotogramas, con 16 fotogramas de superposición.
  • Modelo T2V 1.3B: En una tarjeta gráfica 5090, utiliza menos de 5GB de VRAM, con un tiempo de generación de 10 minutos.
  • Optimización de Memoria: Con una especificación de 512x512x81, utiliza aproximadamente 16GB de memoria, soportando 20/40 bloques de offload.

Optimización de Aceleración TeaCache

  • El umbral de la nueva versión debe ser 10 veces el original.
  • Rango de coeficiente recomendado: 0.25-0.30.
  • Los pasos iniciales pueden comenzar desde 0.
  • Se sugiere que los valores de umbral más agresivos comiencen más tarde para evitar saltos en los pasos iniciales.

Ventajas Técnicas

  1. Ecosistema de Código Abierto: Completamente de código abierto, incluyendo el código fuente y todos los modelos.
  2. Rendimiento Líder: Supera consistentemente a los modelos de código abierto existentes y a las soluciones comerciales más avanzadas en múltiples pruebas de referencia internas y externas.
  3. Cobertura Integral: Cubre múltiples aplicaciones downstream, incluyendo imagen a video, edición de video guiada por instrucciones y generación de video personal, abarcando hasta 8 tareas.
  4. Amigable para el Consumidor: El modelo 1.3B demuestra una eficiencia de recursos excepcional, requiriendo solo 8.19GB de VRAM y siendo compatible con una amplia gama de GPU de consumo.

Estado y Desarrollo del Proyecto

Desarrollo Futuro

  • No está diseñado para competir con los flujos de trabajo nativos ni para ofrecer una alternativa.
  • El objetivo final es ayudar a explorar modelos y funcionalidades recién lanzados.
  • Algunas funcionalidades podrían integrarse en el sistema central de ComfyUI.

Recomendaciones de Uso

Escenarios Aplicables

  • Investigación y experimentación en generación de video con IA.
  • Pruebas y validación rápidas de nuevos modelos.
  • Creación de contenido de video creativo.
  • Usos educativos y de aprendizaje.

Consideraciones

  • El código está en desarrollo continuo, por lo que pueden existir problemas de estabilidad.
  • Se recomienda probarlo en un entorno independiente.
  • Requiere ciertos conocimientos técnicos y recursos de GPU.

Resumen

ComfyUI-WanVideoWrapper es un innovador wrapper de herramientas de generación de video con IA que ofrece a los usuarios una forma conveniente de acceder a las últimas tecnologías de generación de video. Basado en la serie de modelos Wan 2.1 de código abierto de Alibaba, este proyecto no solo mantiene el liderazgo tecnológico, sino que también refleja el espíritu de colaboración de la comunidad de código abierto. Aunque el proyecto sigue en desarrollo continuo, sus potentes funcionalidades y el amplio soporte de modelos lo convierten en una herramienta importante en el campo de la generación de video con IA.

Star History Chart