O primeiro modelo de geração de filmes de comprimento infinito do mundo, utilizando a arquitetura Diffusion Forcing para alcançar geração de vídeo de nível cinematográfico profissional.

NOASSERTIONPythonSkyReels-V2SkyworkAI 4.4k Last Updated: August 11, 2025

SkyReels-V2: Modelo de Geração de Filmes de Duração Infinita

Visão Geral do Projeto

SkyReels-V2 é o primeiro modelo de geração de filmes de duração infinita do mundo, desenvolvido pela SkyworkAI. Utiliza uma arquitetura AutoRegressive Diffusion-Forcing, alcançando desempenho SOTA (State-Of-The-Art) entre os modelos publicamente disponíveis. Este projeto representa um avanço significativo na tecnologia de geração de vídeo, capaz de produzir conteúdo de vídeo de qualidade cinematográfica de duração teoricamente infinita.

Principais Características Técnicas

1. Arquitetura Diffusion Forcing

Diffusion Forcing é uma estratégia de treinamento e amostragem que atribui níveis de ruído independentes a cada token. Isso permite que os tokens sejam denoised de acordo com um cronograma arbitrário e por token. Conceitualmente, este método é equivalente a uma forma de mascaramento parcial: tokens com ruído zero são completamente desmascarados, enquanto o ruído total é completamente mascarado.

2. Fusão de Tecnologias Multimodais

O método integra Modelos de Linguagem Grandes Multimodais (MLLM), pré-treinamento multiestágio, aprendizado por reforço e a tecnologia Diffusion Forcing para otimização abrangente.

3. Gerador de Legendas de Vídeo (SkyCaptioner-V1)

SkyCaptioner-V1 foi ajustado com base no modelo fundamental Qwen2.5-VL-7B-Instruct para tarefas de legendagem de vídeo específicas de domínio, alcançando a maior precisão média em avaliações de precisão em diferentes domínios de legendagem.

Variantes do Modelo

O projeto oferece várias variantes de modelo para atender a diferentes necessidades:

Série de Modelos Diffusion Forcing

  • SkyReels-V2-DF-1.3B-540P: Versão de baixo parâmetro, resolução recomendada 544×960, 97 quadros
  • SkyReels-V2-DF-14B-540P: Versão padrão, adequada para geração de vídeo 540P
  • SkyReels-V2-DF-14B-720P: Versão de alta resolução, suporta geração de vídeo 720P

Modelos de Texto para Vídeo (T2V)

  • SkyReels-V2-T2V-14B-540P: Especializado na geração de texto para vídeo
  • SkyReels-V2-T2V-14B-720P: Modelo de texto para vídeo de alta resolução

Modelos de Imagem para Vídeo (I2V)

  • SkyReels-V2-I2V-1.3B-540P: Modelo leve de imagem para vídeo
  • SkyReels-V2-I2V-14B-540P: Modelo padrão de imagem para vídeo
  • SkyReels-V2-I2V-14B-720P: Modelo de imagem para vídeo de alta resolução

Inovações Técnicas

1. Otimização por Aprendizado por Reforço

Para evitar a degradação de outros indicadores, como alinhamento de texto e qualidade de vídeo, a equipe garantiu que os pares de dados de preferência fossem comparáveis em termos de alinhamento de texto e qualidade de vídeo, diferindo apenas na qualidade do movimento. Utilizando este conjunto de dados aprimorado, um modelo de recompensa especializado foi primeiramente treinado para capturar as diferenças gerais de qualidade de movimento entre as amostras emparelhadas.

2. Fluxo de Treinamento Multiestágio

O projeto adota um processo de aprimoramento de treinamento em quatro estágios:

  • Ajuste Fino Supervisionado (SFT) de Equilíbrio de Conceito Inicial: Melhora a qualidade da linha de base
  • Treinamento de Aprendizado por Reforço (RL) Específico para Movimento: Aborda problemas de artefatos dinâmicos
  • Estrutura Diffusion Forcing: Permite a síntese de vídeos longos
  • SFT Final de Alta Qualidade: Refina a fidelidade visual

3. Treinamento Progressivo de Resolução

Foram implementadas duas fases consecutivas de ajuste fino supervisionado (SFT) de alta qualidade para resoluções de 540p e 720p, com a fase SFT inicial ocorrendo imediatamente após o pré-treinamento, mas antes da fase de aprendizado por reforço.

Desempenho

Resultados da Avaliação Humana

Na avaliação SkyReels-Bench:

  • Modelos de Texto para Vídeo: Apresentam excelente desempenho na conformidade com instruções (3.15) e mantêm uma vantagem competitiva na consistência (3.35)
  • Modelos de Imagem para Vídeo: SkyReels-V2-I2V obteve uma pontuação média de 3.29, comparável aos modelos proprietários Kling-1.6 (3.4) e Runway-Gen4 (3.39)

Resultados da Avaliação Automatizada

Na avaliação V-Bench: SkyReels-V2 superou todos os modelos comparados, incluindo HunyuanVideo-13B e Wan2.1-14B, obtendo a pontuação total mais alta (83.9%) e a pontuação de qualidade (84.7%).

Cenários de Aplicação

1. Geração de Histórias

Capaz de gerar conteúdo de vídeo narrativo de duração teoricamente infinita

2. Síntese de Imagem para Vídeo

Converte imagens estáticas em sequências de vídeo dinâmicas

3. Funcionalidade de Direção de Câmera

Oferece controle profissional de movimento e composição de câmera

4. Geração de Vídeo com Consistência Multientidade

Permite a geração de vídeo com múltiplos elementos combinados através do sistema SkyReels-A2

Requisitos do Sistema

Requisitos de Hardware

  • Modelo 1.3B: Requer aproximadamente 14.7GB de VRAM de pico para gerar vídeos 540P
  • Modelo 14B: Requer aproximadamente 51.2GB de VRAM de pico para gerar vídeos 540P (Diffusion Forcing) ou 43.4GB (T2V/I2V)

Ambiente de Software

  • Python 3.10.12
  • Suporta inferência em GPU única e múltiplas GPUs
  • Integra inferência acelerada xDiT USP

Instalação e Uso

Instalação Básica

# Clonar repositório
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2

# Instalar dependências
pip install -r requirements.txt

Exemplo de Geração de Texto para Vídeo

model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

Exemplo de Geração de Vídeo de Duração Infinita

model_id=Skywork/SkyReels-V2-DF-14B-540P
# Inferência síncrona para gerar vídeo de 10 segundos
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

Funcionalidades Avançadas

1. Extensão de Vídeo

Suporta a extensão de vídeos existentes para criar conteúdo de vídeo mais longo

2. Controle de Quadros Inicial/Final

Permite especificar os quadros inicial e final do vídeo para um controle preciso

3. Aprimorador de Prompt

Funcionalidade de aprimoramento de prompt baseada em Qwen2.5-32B-Instruct, capaz de expandir prompts curtos em descrições mais detalhadas

4. Aceleração Multi-GPU

Suporta inferência paralela multi-GPU via xDiT USP, aumentando significativamente a velocidade de geração

Projetos Relacionados

  • SkyReels-A2: Estrutura de geração de vídeo controlável, capaz de montar elementos visuais arbitrários
  • SkyReels-V1: Primeiro modelo de base de vídeo de código aberto centrado no ser humano
  • SkyCaptioner-V1: Modelo especializado de geração de legendas de vídeo

Informações de Código Aberto

Resumo

SkyReels-V2 representa um avanço significativo na tecnologia de geração de vídeo por IA, especialmente na síntese de vídeo de formato longo. Não só alcança inovações técnicas, mas também oferece novas possibilidades para aplicações criativas, como produção dramática e e-commerce virtual, expandindo os limites da geração de vídeo controlável.

Star History Chart