SkyworkAI/SkyReels-V2 View GitHub Homepage for Latest Official Releases

El primer modelo de generación de películas de longitud infinita del mundo, que utiliza la arquitectura Diffusion Forcing para lograr una generación de video de calidad cinematográfica profesional.

NOASSERTIONPythonSkyReels-V2SkyworkAI 5.2k Last Updated: August 11, 2025

SkyReels-V2: Modelo de Generación de Películas de Longitud Infinita

Resumen del Proyecto

SkyReels-V2 es el primer modelo de generación de películas de longitud infinita del mundo, desarrollado por SkyworkAI, que utiliza una arquitectura AutoRegressive Diffusion-Forcing y logra un rendimiento SOTA (estado del arte) entre los modelos disponibles públicamente. Este proyecto representa un avance significativo en la tecnología de generación de video, capaz de producir contenido de video de calidad cinematográfica de longitud teóricamente infinita.

Características Técnicas Clave

1. Arquitectura Diffusion Forcing

Diffusion Forcing es una estrategia de entrenamiento y muestreo que asigna niveles de ruido independientes a cada token. Esto permite que los tokens se desruiden según un cronograma arbitrario y por token. Conceptualmente, este método es equivalente a una forma de enmascaramiento parcial: los tokens con ruido cero están completamente desenmascarados, mientras que el ruido completo está completamente enmascarado.

2. Fusión de Tecnologías Multimodales

Este método integra Modelos de Lenguaje Grandes Multimodales (MLLM), preentrenamiento multifase, aprendizaje por refuerzo y la tecnología Diffusion Forcing para lograr una optimización integral.

3. Generador de Subtítulos de Video (SkyCaptioner-V1)

SkyCaptioner-V1 se basa en el modelo fundacional Qwen2.5-VL-7B-Instruct y ha sido ajustado finamente para tareas de subtitulado de video específicas del dominio, logrando la mayor precisión promedio en la evaluación de precisión en diferentes dominios de subtitulado.

Variantes del Modelo

El proyecto ofrece varias variantes de modelo para satisfacer diferentes necesidades:

Serie de Modelos Diffusion Forcing

SkyReels-V2-DF-1.3B-540P: Versión de bajos parámetros, resolución recomendada 544×960, 97 fotogramas
SkyReels-V2-DF-14B-540P: Versión estándar, adecuada para la generación de video 540P
SkyReels-V2-DF-14B-720P: Versión de alta resolución, compatible con la generación de video 720P

Modelo de Texto a Video (T2V)

SkyReels-V2-T2V-14B-540P: Especializado en la generación de texto a video
SkyReels-V2-T2V-14B-720P: Modelo de texto a video de alta resolución

Modelo de Imagen a Video (I2V)

SkyReels-V2-I2V-1.3B-540P: Modelo ligero de imagen a video
SkyReels-V2-I2V-14B-540P: Modelo estándar de imagen a video
SkyReels-V2-I2V-14B-720P: Modelo de imagen a video de alta resolución

Puntos de Innovación Tecnológica

1. Optimización por Aprendizaje por Refuerzo

Para evitar la degradación de otras métricas, como la alineación del texto y la calidad del video, el equipo se aseguró de que los pares de datos de preferencia fueran comparables en términos de alineación del texto y calidad del video, difiriendo solo en la calidad del movimiento. Utilizando este conjunto de datos mejorado, primero se entrenó un modelo de recompensa especializado para capturar las diferencias generales en la calidad del movimiento entre muestras emparejadas.

2. Flujo de Entrenamiento Multifase

El proyecto adoptó un flujo de mejora del entrenamiento de cuatro fases:

Ajuste fino supervisado de equilibrio conceptual inicial (SFT): Para mejorar la calidad de la línea base.
Entrenamiento de aprendizaje por refuerzo (RL) específico del movimiento: Para abordar los artefactos dinámicos.
Marco Diffusion Forcing: Para lograr la síntesis de video de larga duración.
SFT final de alta calidad: Para refinar la fidelidad visual.

3. Entrenamiento Progresivo de Resolución

Se implementaron dos fases consecutivas de ajuste fino supervisado (SFT) de alta calidad para resoluciones de 540p y 720p, con la fase SFT inicial realizada inmediatamente después del preentrenamiento pero antes de la fase de aprendizaje por refuerzo.

Rendimiento

Resultados de Evaluación Humana

En la evaluación SkyReels-Bench:

Modelo de Texto a Video: Destaca en el cumplimiento de instrucciones (3.15) y mantiene una ventaja competitiva en coherencia (3.35).
Modelo de Imagen a Video: SkyReels-V2-I2V obtuvo una puntuación promedio de 3.29, comparable con modelos propietarios como Kling-1.6 (3.4) y Runway-Gen4 (3.39).

Resultados de Evaluación Automatizada

En la evaluación V-Bench: SkyReels-V2 superó a todos los modelos comparados, incluidos HunyuanVideo-13B y Wan2.1-14B, obteniendo la puntuación total más alta (83.9%) y la puntuación de calidad (84.7%).

Casos de Uso

1. Generación de Historias

Puede generar contenido de video narrativo de longitud teóricamente infinita.

2. Síntesis de Imagen a Video

Transforma imágenes estáticas en secuencias de video dinámicas.

3. Funcionalidad de Dirección de Cámara

Ofrece control profesional sobre el movimiento y la composición de la cámara.

4. Generación de Video con Consistencia Multi-Entidad

Logra la generación de video con combinación de múltiples elementos a través del sistema SkyReels-A2.

Requisitos del Sistema

Requisitos de Hardware

Modelo 1.3B: Requiere aproximadamente 14.7 GB de VRAM pico para generar video 540P.
Modelo 14B: Requiere aproximadamente 51.2 GB de VRAM pico (Diffusion Forcing) o 43.4 GB (T2V/I2V) para generar video 540P.

Entorno de Software

Python 3.10.12
Compatible con inferencia de GPU única y múltiple.
Integración de inferencia acelerada xDiT USP.

Instalación y Uso

Instalación Básica

# Clonar el repositorio
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2

# Instalar dependencias
pip install -r requirements.txt

Ejemplo de Generación de Texto a Video

model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "Un lago sereno rodeado de imponentes montañas, con algunos cisnes deslizándose graciosamente por el agua y la luz del sol bailando en la superficie." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

Ejemplo de Generación de Video de Longitud Infinita

model_id=Skywork/SkyReels-V2-DF-14B-540P
# Inferencia síncrona para generar un video de 10 segundos
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "Un elegante cisne blanco con un cuello curvado y delicadas plumas nadando en un lago sereno al amanecer, su reflejo perfectamente espejado en el agua inmóvil mientras la niebla se eleva de la superficie, con el cisne ocasionalmente sumergiendo su cabeza en el agua para alimentarse." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

Funciones Avanzadas

1. Extensión de Video

Permite extender videos existentes para crear contenido de video más largo.

2. Control de Fotogramas Iniciales/Finales

Permite especificar los fotogramas de inicio y fin del video para un control preciso.

3. Mejorador de Prompts

Funcionalidad de mejora de prompts basada en Qwen2.5-32B-Instruct, que puede expandir prompts cortos en descripciones más detalladas.

4. Aceleración Multi-GPU

Soporta inferencia paralela multi-GPU a través de xDiT USP, mejorando significativamente la velocidad de generación.

Proyectos Relacionados

SkyReels-A2: Marco de generación de video controlable, capaz de ensamblar elementos visuales arbitrarios.
SkyReels-V1: Primer modelo fundacional de video de código abierto centrado en el ser humano.
SkyCaptioner-V1: Modelo especializado en generación de subtítulos de video.

Información de Código Abierto

Repositorio de GitHub: https://github.com/SkyworkAI/SkyReels-V2
Modelos de Hugging Face: https://huggingface.co/collections/Skywork/skyreels-v2-6801b1b93df627d441d0d0d9
Artículo Técnico: https://arxiv.org/pdf/2504.13074
Experiencia en Línea: https://www.skyreels.ai/home

Conclusión

SkyReels-V2 representa un avance significativo en la tecnología de generación de video por IA, especialmente en la síntesis de video de formato largo. No solo ha logrado innovaciones técnicas, sino que también ofrece nuevas posibilidades para aplicaciones creativas como la producción dramática y el comercio electrónico virtual, ampliando los límites de la generación de video controlable.