El primer modelo de generación de películas de longitud infinita del mundo, que utiliza la arquitectura Diffusion Forcing para lograr una generación de video de calidad cinematográfica profesional.
SkyReels-V2: Modelo de Generación de Películas de Longitud Infinita
Resumen del Proyecto
SkyReels-V2 es el primer modelo de generación de películas de longitud infinita del mundo, desarrollado por SkyworkAI, que utiliza una arquitectura AutoRegressive Diffusion-Forcing y logra un rendimiento SOTA (estado del arte) entre los modelos disponibles públicamente. Este proyecto representa un avance significativo en la tecnología de generación de video, capaz de producir contenido de video de calidad cinematográfica de longitud teóricamente infinita.
Características Técnicas Clave
1. Arquitectura Diffusion Forcing
Diffusion Forcing es una estrategia de entrenamiento y muestreo que asigna niveles de ruido independientes a cada token. Esto permite que los tokens se desruiden según un cronograma arbitrario y por token. Conceptualmente, este método es equivalente a una forma de enmascaramiento parcial: los tokens con ruido cero están completamente desenmascarados, mientras que el ruido completo está completamente enmascarado.
2. Fusión de Tecnologías Multimodales
Este método integra Modelos de Lenguaje Grandes Multimodales (MLLM), preentrenamiento multifase, aprendizaje por refuerzo y la tecnología Diffusion Forcing para lograr una optimización integral.
3. Generador de Subtítulos de Video (SkyCaptioner-V1)
SkyCaptioner-V1 se basa en el modelo fundacional Qwen2.5-VL-7B-Instruct y ha sido ajustado finamente para tareas de subtitulado de video específicas del dominio, logrando la mayor precisión promedio en la evaluación de precisión en diferentes dominios de subtitulado.
Variantes del Modelo
El proyecto ofrece varias variantes de modelo para satisfacer diferentes necesidades:
Serie de Modelos Diffusion Forcing
- SkyReels-V2-DF-1.3B-540P: Versión de bajos parámetros, resolución recomendada 544×960, 97 fotogramas
- SkyReels-V2-DF-14B-540P: Versión estándar, adecuada para la generación de video 540P
- SkyReels-V2-DF-14B-720P: Versión de alta resolución, compatible con la generación de video 720P
Modelo de Texto a Video (T2V)
- SkyReels-V2-T2V-14B-540P: Especializado en la generación de texto a video
- SkyReels-V2-T2V-14B-720P: Modelo de texto a video de alta resolución
Modelo de Imagen a Video (I2V)
- SkyReels-V2-I2V-1.3B-540P: Modelo ligero de imagen a video
- SkyReels-V2-I2V-14B-540P: Modelo estándar de imagen a video
- SkyReels-V2-I2V-14B-720P: Modelo de imagen a video de alta resolución
Puntos de Innovación Tecnológica
1. Optimización por Aprendizaje por Refuerzo
Para evitar la degradación de otras métricas, como la alineación del texto y la calidad del video, el equipo se aseguró de que los pares de datos de preferencia fueran comparables en términos de alineación del texto y calidad del video, difiriendo solo en la calidad del movimiento. Utilizando este conjunto de datos mejorado, primero se entrenó un modelo de recompensa especializado para capturar las diferencias generales en la calidad del movimiento entre muestras emparejadas.
2. Flujo de Entrenamiento Multifase
El proyecto adoptó un flujo de mejora del entrenamiento de cuatro fases:
- Ajuste fino supervisado de equilibrio conceptual inicial (SFT): Para mejorar la calidad de la línea base.
- Entrenamiento de aprendizaje por refuerzo (RL) específico del movimiento: Para abordar los artefactos dinámicos.
- Marco Diffusion Forcing: Para lograr la síntesis de video de larga duración.
- SFT final de alta calidad: Para refinar la fidelidad visual.
3. Entrenamiento Progresivo de Resolución
Se implementaron dos fases consecutivas de ajuste fino supervisado (SFT) de alta calidad para resoluciones de 540p y 720p, con la fase SFT inicial realizada inmediatamente después del preentrenamiento pero antes de la fase de aprendizaje por refuerzo.
Rendimiento
Resultados de Evaluación Humana
En la evaluación SkyReels-Bench:
- Modelo de Texto a Video: Destaca en el cumplimiento de instrucciones (3.15) y mantiene una ventaja competitiva en coherencia (3.35).
- Modelo de Imagen a Video: SkyReels-V2-I2V obtuvo una puntuación promedio de 3.29, comparable con modelos propietarios como Kling-1.6 (3.4) y Runway-Gen4 (3.39).
Resultados de Evaluación Automatizada
En la evaluación V-Bench: SkyReels-V2 superó a todos los modelos comparados, incluidos HunyuanVideo-13B y Wan2.1-14B, obteniendo la puntuación total más alta (83.9%) y la puntuación de calidad (84.7%).
Casos de Uso
1. Generación de Historias
Puede generar contenido de video narrativo de longitud teóricamente infinita.
2. Síntesis de Imagen a Video
Transforma imágenes estáticas en secuencias de video dinámicas.
3. Funcionalidad de Dirección de Cámara
Ofrece control profesional sobre el movimiento y la composición de la cámara.
4. Generación de Video con Consistencia Multi-Entidad
Logra la generación de video con combinación de múltiples elementos a través del sistema SkyReels-A2.
Requisitos del Sistema
Requisitos de Hardware
- Modelo 1.3B: Requiere aproximadamente 14.7 GB de VRAM pico para generar video 540P.
- Modelo 14B: Requiere aproximadamente 51.2 GB de VRAM pico (Diffusion Forcing) o 43.4 GB (T2V/I2V) para generar video 540P.
Entorno de Software
- Python 3.10.12
- Compatible con inferencia de GPU única y múltiple.
- Integración de inferencia acelerada xDiT USP.
Instalación y Uso
Instalación Básica
# Clonar el repositorio
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
# Instalar dependencias
pip install -r requirements.txt
Ejemplo de Generación de Texto a Video
model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "Un lago sereno rodeado de imponentes montañas, con algunos cisnes deslizándose graciosamente por el agua y la luz del sol bailando en la superficie." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
Ejemplo de Generación de Video de Longitud Infinita
model_id=Skywork/SkyReels-V2-DF-14B-540P
# Inferencia síncrona para generar un video de 10 segundos
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "Un elegante cisne blanco con un cuello curvado y delicadas plumas nadando en un lago sereno al amanecer, su reflejo perfectamente espejado en el agua inmóvil mientras la niebla se eleva de la superficie, con el cisne ocasionalmente sumergiendo su cabeza en el agua para alimentarse." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
Funciones Avanzadas
1. Extensión de Video
Permite extender videos existentes para crear contenido de video más largo.
2. Control de Fotogramas Iniciales/Finales
Permite especificar los fotogramas de inicio y fin del video para un control preciso.
3. Mejorador de Prompts
Funcionalidad de mejora de prompts basada en Qwen2.5-32B-Instruct, que puede expandir prompts cortos en descripciones más detalladas.
4. Aceleración Multi-GPU
Soporta inferencia paralela multi-GPU a través de xDiT USP, mejorando significativamente la velocidad de generación.
Proyectos Relacionados
- SkyReels-A2: Marco de generación de video controlable, capaz de ensamblar elementos visuales arbitrarios.
- SkyReels-V1: Primer modelo fundacional de video de código abierto centrado en el ser humano.
- SkyCaptioner-V1: Modelo especializado en generación de subtítulos de video.
Información de Código Abierto
- Repositorio de GitHub: https://github.com/SkyworkAI/SkyReels-V2
- Modelos de Hugging Face: https://huggingface.co/collections/Skywork/skyreels-v2-6801b1b93df627d441d0d0d9
- Artículo Técnico: https://arxiv.org/pdf/2504.13074
- Experiencia en Línea: https://www.skyreels.ai/home
Conclusión
SkyReels-V2 representa un avance significativo en la tecnología de generación de video por IA, especialmente en la síntesis de video de formato largo. No solo ha logrado innovaciones técnicas, sino que también ofrece nuevas posibilidades para aplicaciones creativas como la producción dramática y el comercio electrónico virtual, ampliando los límites de la generación de video controlable.