Wrapper do modelo WanVideo para ComfyUI, suporta a série de modelos de geração de vídeo AI WanVideo 2.1 da Alibaba

Apache-2.0PythonComfyUI-WanVideoWrapperkijai 4.4k Last Updated: September 13, 2025

Introdução Detalhada ao Projeto ComfyUI-WanVideoWrapper

Visão Geral do Projeto

ComfyUI-WanVideoWrapper é um plugin wrapper desenvolvido especificamente para a plataforma ComfyUI, destinado principalmente a suportar o WanVideo e modelos relacionados. Este projeto é desenvolvido e mantido por kijai, servindo como um ambiente experimental de "sandbox" para testar e implementar rapidamente novos modelos e funcionalidades de geração de vídeo por IA.

Contexto do Projeto

Devido à complexidade do código central do ComfyUI e à falta de experiência em codificação do desenvolvedor, em muitos casos, implementar novos modelos e funcionalidades em um wrapper independente é mais fácil e rápido do que implementá-los diretamente no sistema central. Este projeto nasceu precisamente dessa filosofia.

Filosofia de Design

  • Plataforma de Teste Rápido: Serve como um ambiente de validação rápida para novas funcionalidades.
  • Sandbox Pessoal: Uma plataforma experimental aberta para uso de todos.
  • Evitar Problemas de Compatibilidade: Opera de forma independente, sem afetar a estabilidade do sistema principal.
  • Desenvolvimento Contínuo: O código está sempre em desenvolvimento, podendo conter problemas.

Funcionalidades Principais

Série de Modelos WanVideo Suportados

Este wrapper suporta principalmente a série de modelos Wan 2.1 de código aberto da Alibaba, um modelo avançado de geração de vídeo com desempenho líder:

Características do Modelo Wan 2.1:

  • Desempenho de Alta Qualidade: Supera consistentemente os modelos de código aberto existentes e as soluções comerciais de ponta em vários benchmarks.
  • Geração de Texto Bilíngue: O primeiro modelo de vídeo capaz de gerar texto em chinês e inglês, com forte capacidade de geração de texto.
  • Suporte a Múltiplas Resoluções: Suporta a geração de vídeos em 480P e 720P.
  • Simulação Física: Gera vídeos que simulam com precisão efeitos físicos do mundo real e interações de objetos realistas.

Especificações do Modelo:

  1. Modelo T2V-1.3B:

    • Requer apenas 8.19 GB de VRAM, compatível com quase todas as GPUs de consumo.
    • Pode gerar um vídeo de 5 segundos em 480P em aproximadamente 4 minutos numa RTX 4090.
    • Leve, adequado para utilizadores comuns.
  2. Modelo T2V-14B/I2V-14B:

    • Atinge desempenho SOTA (State-Of-The-Art) tanto em modelos de código aberto quanto fechado.
    • Suporta cenas visuais complexas e padrões de movimento.
    • Adequado para aplicações de nível profissional.

Módulos de Funcionalidade Principais

  1. Texto para Vídeo (Text-to-Video)
  2. Imagem para Vídeo (Image-to-Video)
  3. Edição de Vídeo
  4. Texto para Imagem
  5. Vídeo para Áudio

Arquitetura Técnica

Componentes Tecnológicos Centrais

O Wan2.1 é projetado com base no paradigma mainstream do transformador de difusão, alcançando uma melhoria significativa na capacidade de geração através de uma série de inovações:

  1. Wan-VAE: Uma nova arquitetura VAE causal 3D projetada especificamente para geração de vídeo, que melhora a compressão espaço-temporal através de várias estratégias, reduz o uso de memória e garante a causalidade temporal.
  2. Estratégias de Treinamento Escaláveis
  3. Construção de Dados em Larga Escala
  4. Métricas de Avaliação Automatizadas

Características de Desempenho

  • Eficiência de Memória: O Wan-VAE pode codificar e decodificar vídeos 1080P de comprimento ilimitado sem perder informações temporais históricas.
  • Compatibilidade com GPU: Suporta execução em GPUs de consumo.
  • Capacidade de Processamento: Suporta geração de vídeos longos e processamento de cenas complexas.

Instalação e Uso

Passos de Instalação

  1. Clonar o Repositório:

    git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
    
  2. Instalar Dependências:

    pip install -r requirements.txt
    

    Para instalação portátil:

    python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
    

Download dos Modelos

Endereços principais para download dos modelos:

Estrutura de Ficheiros do Modelo

Coloque os ficheiros do modelo descarregados nos diretórios correspondentes do ComfyUI:

  • Text encodersComfyUI/models/text_encoders
  • Clip visionComfyUI/models/clip_vision
  • Transformer (modelo de vídeo principal) → ComfyUI/models/diffusion_models
  • VAEComfyUI/models/vae

Modelos de Extensão Suportados

Este wrapper também suporta vários modelos de geração de vídeo por IA relacionados:

  1. SkyReels: Modelo de geração de vídeo desenvolvido pela Skywork.
  2. WanVideoFun: Modelo de entretenimento desenvolvido pela equipa PAI da Alibaba.
  3. ReCamMaster: Modelo de reconstrução de vídeo desenvolvido pela Kuaishou VGI.
  4. VACE: Modelo de aprimoramento de vídeo do Alibaba Vision Lab.
  5. Phantom: Modelo de geração de vídeo multi-agente do ByteDance Research Institute.
  6. ATI: Modelo de transferência de atenção do ByteDance Research Institute.
  7. Uni3C: Modelo unificado de compreensão de vídeo do Alibaba DAMO Academy.
  8. EchoShot: Modelo de geração de vídeo de retrato multi-câmera.
  9. MultiTalk: Modelo de geração de vídeo de diálogo multi-pessoa.

Casos de Aplicação e Exemplos

Teste de Geração de Vídeo Longo

  • Teste de 1025 frames: Usando um tamanho de janela de 81 frames, com 16 frames de sobreposição.
  • Modelo T2V de 1.3B: Utiliza menos de 5GB de VRAM numa placa gráfica 5090, com um tempo de geração de 10 minutos.
  • Otimização de Memória: Aproximadamente 16GB de memória são usados para a especificação 512x512x81, suportando 20/40 blocos de offload.

Otimização de Aceleração TeaCache

  • O limiar da nova versão deve ser 10 vezes o original.
  • Intervalo de coeficiente recomendado: 0.25-0.30.
  • Os passos iniciais podem começar a partir de 0.
  • Valores de limiar mais agressivos são recomendados para começar mais tarde, a fim de evitar saltos nos passos iniciais.

Vantagens Técnicas

  1. Ecossistema de Código Aberto: Totalmente de código aberto, incluindo o código-fonte e todos os modelos.
  2. Desempenho Líder: Supera consistentemente os modelos de código aberto existentes e as soluções comerciais de ponta em vários benchmarks internos e externos.
  3. Cobertura Abrangente: Abrange múltiplas aplicações downstream, incluindo imagem para vídeo, edição de vídeo guiada por instruções e geração de vídeo pessoal, cobrindo até 8 tarefas.
  4. Amigável ao Consumidor: O modelo de 1.3B demonstra excelente eficiência de recursos, exigindo apenas 8.19GB de VRAM, sendo compatível com uma ampla gama de GPUs de consumo.

Estado e Desenvolvimento do Projeto

Desenvolvimento Futuro

  • Não se destina a competir com fluxos de trabalho nativos ou a fornecer alternativas.
  • O objetivo final é ajudar a explorar modelos e funcionalidades recém-lançados.
  • Algumas funcionalidades podem ser integradas no sistema central do ComfyUI.

Recomendações de Uso

Cenários Aplicáveis

  • Pesquisa e experimentação em geração de vídeo por IA.
  • Teste e validação rápida de novos modelos.
  • Criação de conteúdo de vídeo criativo.
  • Fins educacionais e de aprendizagem.

Precauções

  • O código está em desenvolvimento contínuo, podendo apresentar problemas de estabilidade.
  • Recomenda-se testar e usar em um ambiente isolado.
  • Requer algum conhecimento técnico e recursos de GPU.

Resumo

ComfyUI-WanVideoWrapper é um wrapper inovador de ferramentas de geração de vídeo por IA, que oferece aos utilizadores uma forma conveniente de aceder às mais recentes tecnologias de geração de vídeo. Baseado na série de modelos Wan 2.1 de código aberto da Alibaba, este projeto não só mantém a liderança tecnológica, mas também reflete o espírito colaborativo da comunidade de código aberto. Embora o projeto ainda esteja em desenvolvimento contínuo, as suas poderosas funcionalidades e o amplo suporte a modelos fazem dele uma ferramenta importante no campo da geração de vídeo por IA.

Star History Chart