Premier modèle de génération de films de longueur infinie au monde, utilisant l'architecture Diffusion Forcing pour une génération vidéo de qualité cinématographique professionnelle.

NOASSERTIONPythonSkyReels-V2SkyworkAI 4.4k Last Updated: August 11, 2025

SkyReels-V2 : Modèle de Génération de Films à Longueur Illimitée

Aperçu du Projet

SkyReels-V2 est le premier modèle mondial de génération de films à longueur illimitée, développé par SkyworkAI. Il utilise une architecture AutoRegressive Diffusion-Forcing et atteint des performances SOTA (State-Of-The-Art) parmi les modèles publiquement disponibles. Ce projet représente une avancée majeure dans la technologie de génération vidéo, capable de produire du contenu vidéo de qualité cinématographique d'une longueur théoriquement infinie.

Caractéristiques Techniques Clés

1. Architecture Diffusion Forcing

Diffusion Forcing est une stratégie d'entraînement et d'échantillonnage qui attribue des niveaux de bruit indépendants à chaque token. Cela permet de débruiter les tokens selon un calendrier arbitraire et spécifique à chaque token. Conceptuellement, cette méthode équivaut à une forme de masquage partiel : les tokens avec un bruit nul sont entièrement démasqués, tandis qu'un bruit complet signifie un masquage total.

2. Fusion de Technologies Multimodales

Cette approche intègre des modèles de langage larges multimodaux (MLLM), un pré-entraînement multi-étapes, l'apprentissage par renforcement et la technologie Diffusion Forcing pour une optimisation globale.

3. Générateur de Sous-titres Vidéo (SkyCaptioner-V1)

SkyCaptioner-V1 est basé sur le modèle de base Qwen2.5-VL-7B-Instruct et a été affiné pour les tâches de sous-titrage vidéo spécifiques à un domaine, atteignant la précision moyenne la plus élevée dans l'évaluation de la précision sur différents domaines de sous-titrage.

Variantes du Modèle

Le projet propose plusieurs variantes de modèles pour répondre à différents besoins :

Série de Modèles Diffusion Forcing

  • SkyReels-V2-DF-1.3B-540P : Version à faibles paramètres, résolution recommandée 544×960, 97 images
  • SkyReels-V2-DF-14B-540P : Version standard, adaptée à la génération vidéo 540P
  • SkyReels-V2-DF-14B-720P : Version haute résolution, prend en charge la génération vidéo 720P

Modèles Texte-vers-Vidéo (T2V)

  • SkyReels-V2-T2V-14B-540P : Spécialement conçu pour la génération de texte-vers-vidéo
  • SkyReels-V2-T2V-14B-720P : Modèle texte-vers-vidéo haute résolution

Modèles Image-vers-Vidéo (I2V)

  • SkyReels-V2-I2V-1.3B-540P : Modèle léger d'image-vers-vidéo
  • SkyReels-V2-I2V-14B-540P : Modèle standard d'image-vers-vidéo
  • SkyReels-V2-I2V-14B-720P : Modèle haute résolution d'image-vers-vidéo

Innovations Techniques

1. Optimisation par Apprentissage par Renforcement

Afin d'éviter la dégradation d'autres métriques, telles que l'alignement du texte et la qualité vidéo, l'équipe s'est assurée que les paires de données de préférence étaient comparables en termes d'alignement du texte et de qualité vidéo, seule la qualité du mouvement différant. En utilisant cet ensemble de données amélioré, un modèle de récompense spécialisé a d'abord été entraîné pour capturer les différences générales de qualité de mouvement entre les échantillons appariés.

2. Processus d'Entraînement Multi-étapes

Le projet a adopté un processus d'amélioration de l'entraînement en quatre étapes :

  • Affinement supervisé (SFT) initial d'équilibrage des concepts : Amélioration de la qualité de base
  • Entraînement par apprentissage par renforcement (RL) spécifique au mouvement : Résolution des problèmes d'artefacts dynamiques
  • Cadre Diffusion Forcing : Réalisation de la synthèse vidéo longue
  • SFT final de haute qualité : Affinement de la fidélité visuelle

3. Entraînement Progressif en Résolution

Deux étapes consécutives d'affinement supervisé (SFT) de haute qualité ont été mises en œuvre pour les résolutions 540p et 720p, la phase SFT initiale ayant lieu immédiatement après le pré-entraînement mais avant la phase d'apprentissage par renforcement.

Performances

Résultats de l'Évaluation Humaine

Dans l'évaluation SkyReels-Bench :

  • Modèles Texte-vers-Vidéo : Excellente performance en matière de suivi des instructions (3.15), maintien d'un avantage concurrentiel en matière de cohérence (3.35)
  • Modèles Image-vers-Vidéo : SkyReels-V2-I2V a obtenu un score moyen de 3.29, comparable aux modèles propriétaires Kling-1.6 (3.4) et Runway-Gen4 (3.39)

Résultats de l'Évaluation Automatisée

Dans l'évaluation V-Bench : SkyReels-V2 a surpassé tous les modèles comparés, y compris HunyuanVideo-13B et Wan2.1-14B, obtenant le score total le plus élevé (83.9%) et le score de qualité le plus élevé (84.7%).

Scénarios d'Application

1. Génération d'Histoires

Peut générer du contenu vidéo narratif d'une longueur théoriquement illimitée

2. Synthèse Image-vers-Vidéo

Convertit des images statiques en séquences vidéo dynamiques

3. Fonctionnalité de Réalisateur de Caméra

Offre un contrôle professionnel du mouvement et de la composition de la caméra

4. Génération de Vidéos à Cohérence Multi-sujets

Réalisation de la génération de vidéos combinant plusieurs éléments via le système SkyReels-A2

Configuration Requise

Exigences Matérielles

  • Modèle 1.3B : Nécessite environ 14.7 Go de VRAM de pointe pour générer des vidéos 540P
  • Modèle 14B : Nécessite environ 51.2 Go de VRAM de pointe pour générer des vidéos 540P (Diffusion Forcing) ou 43.4 Go (T2V/I2V)

Environnement Logiciel

  • Python 3.10.12
  • Prend en charge l'inférence sur GPU unique et multi-GPU
  • Intègre l'inférence accélérée xDiT USP

Installation et Utilisation

Installation de Base

# Cloner le dépôt
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2

# Installer les dépendances
pip install -r requirements.txt

Exemple de Génération Texte-vers-Vidéo

model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "Un lac serein entouré de montagnes imposantes, avec quelques cygnes glissant gracieusement sur l'eau et la lumière du soleil dansant à la surface." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

Exemple de Génération Vidéo à Longueur Illimitée

model_id=Skywork/SkyReels-V2-DF-14B-540P
# Inférence synchrone pour générer une vidéo de 10 secondes
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "Un cygne blanc gracieux au cou courbé et aux plumes délicates nageant dans un lac serein à l'aube, son reflet parfaitement miroir dans l'eau calme alors que la brume s'élève de la surface, le cygne plongeant occasionnellement sa tête dans l'eau pour se nourrir." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

Fonctionnalités Avancées

1. Extension Vidéo

Prend en charge l'extension de vidéos existantes pour créer un contenu vidéo plus long

2. Contrôle des Images de Début/Fin

Permet de spécifier les images de début et de fin de la vidéo pour un contrôle précis

3. Améliorateur de Prompt

Fonctionnalité d'amélioration de prompt basée sur Qwen2.5-32B-Instruct, capable d'étendre des prompts courts en descriptions plus détaillées

4. Accélération Multi-GPU

Prend en charge l'inférence parallèle multi-GPU via xDiT USP, augmentant considérablement la vitesse de génération

Projets Connexes

  • SkyReels-A2 : Cadre de génération vidéo contrôlable, capable d'assembler des éléments visuels arbitraires
  • SkyReels-V1 : Premier modèle de base vidéo open source centré sur l'humain
  • SkyCaptioner-V1 : Modèle spécialisé de génération de sous-titres vidéo

Informations Open Source

Résumé

SkyReels-V2 représente une avancée majeure dans la technologie de génération vidéo par IA, en particulier pour la synthèse vidéo longue. Il innove non seulement sur le plan technique, mais ouvre également de nouvelles possibilités pour des applications créatives telles que la production dramatique et le commerce électronique virtuel, repoussant les limites de la génération vidéo contrôlable.

Star History Chart