Das weltweit erste Modell zur Generierung von Filmen unbegrenzter Länge, das die Diffusion-Forcing-Architektur für die Erzeugung von Videos in professioneller Filmqualität verwendet.
SkyReels-V2: Modell zur Generierung von Filmen unendlicher Länge
Projektübersicht
SkyReels-V2 ist das weltweit erste Modell zur Generierung von Filmen unendlicher Länge, entwickelt von SkyworkAI. Es verwendet eine AutoRegressive Diffusion-Forcing-Architektur und erreicht SOTA (State-of-the-Art)-Leistung unter den öffentlich verfügbaren Modellen. Dieses Projekt stellt einen bedeutenden Durchbruch in der Videogenerierungstechnologie dar, der die Erzeugung von theoretisch unendlich langen, hochwertigen Videoinhalten in Kinoqualität ermöglicht.
Technische Kernmerkmale
1. Diffusion Forcing Architektur
Diffusion Forcing ist eine Trainings- und Samplingstrategie, die jedem Token unabhängige Rauschpegel zuweist. Dies ermöglicht das Entrauschen von Tokens gemäß beliebigen, pro-Token definierten Zeitplänen. Konzeptionell entspricht diese Methode einer Form der partiellen Maskierung: Tokens mit null Rauschen sind vollständig unmaskiert, während vollständig verrauschte Tokens vollständig maskiert sind.
2. Multimodale Technologieintegration
Die Methode kombiniert multimodale große Sprachmodelle (MLLM), mehrstufiges Vortraining, Reinforcement Learning und Diffusion Forcing-Technologien, um eine umfassende Optimierung zu erreichen.
3. Video-Untertitelgenerator (SkyCaptioner-V1)
SkyCaptioner-V1 basiert auf dem Qwen2.5-VL-7B-Instruct-Basismodell und wurde für domänenspezifische Video-Untertitelungsaufgaben feinabgestimmt. Es erreichte die höchste durchschnittliche Genauigkeit bei der Bewertung der Genauigkeit in verschiedenen Untertitelungsbereichen.
Modellvarianten
Das Projekt bietet mehrere Modellvarianten, um unterschiedliche Anforderungen zu erfüllen:
Diffusion Forcing Modellreihe
- SkyReels-V2-DF-1.3B-540P: Version mit geringer Parameterzahl, empfohlene Auflösung 544×960, 97 Frames
- SkyReels-V2-DF-14B-540P: Standardversion, geeignet für 540P-Videogenerierung
- SkyReels-V2-DF-14B-720P: Hochauflösende Version, unterstützt 720P-Videogenerierung
Text-zu-Video-Modell (T2V)
- SkyReels-V2-T2V-14B-540P: Speziell für die Text-zu-Video-Generierung
- SkyReels-V2-T2V-14B-720P: Hochauflösendes Text-zu-Video-Modell
Bild-zu-Video-Modell (I2V)
- SkyReels-V2-I2V-1.3B-540P: Leichtgewichtiges Bild-zu-Video-Modell
- SkyReels-V2-I2V-14B-540P: Standard-Bild-zu-Video-Modell
- SkyReels-V2-I2V-14B-720P: Hochauflösendes Bild-zu-Video-Modell
Technische Innovationspunkte
1. Optimierung durch Reinforcement Learning
Um die Verschlechterung anderer Metriken wie Textausrichtung und Videoqualität zu vermeiden, stellte das Team sicher, dass die Präferenzdatenpaare in Bezug auf Textausrichtung und Videoqualität vergleichbar waren, während sich nur die Bewegungsqualität unterschied. Mithilfe dieses erweiterten Datensatzes wurde zunächst ein spezielles Belohnungsmodell trainiert, um allgemeine Unterschiede in der Bewegungsqualität zwischen gepaarten Samples zu erfassen.
2. Mehrstufiger Trainingsprozess
Das Projekt verwendet einen vierstufigen Trainingsverbesserungsprozess:
- Initiales konzeptbasiertes überwachtes Fein-Tuning (SFT): zur Verbesserung der Basisqualität
- Bewegungsspezifisches Reinforcement Learning (RL) Training: zur Behebung dynamischer Artefakte
- Diffusion Forcing Framework: zur Realisierung der Langvideo-Synthese
- Finales hochwertiges SFT: zur Verfeinerung der visuellen Wiedergabetreue
3. Progressives Auflösungstraining
Es wurden zwei aufeinanderfolgende hochwertige überwachte Fein-Tuning (SFT)-Phasen für 540p- und 720p-Auflösungen implementiert, wobei die initiale SFT-Phase unmittelbar nach dem Vortraining, aber vor der Reinforcement Learning-Phase stattfand.
Leistungsmerkmale
Ergebnisse der menschlichen Bewertung
In der SkyReels-Bench-Bewertung:
- Text-zu-Video-Modell: Zeigte hervorragende Leistungen bei der Befolgung von Anweisungen (3.15) und blieb bei der Konsistenz (3.35) wettbewerbsfähig.
- Bild-zu-Video-Modell: SkyReels-V2-I2V erreichte einen Durchschnittswert von 3.29, vergleichbar mit den proprietären Modellen Kling-1.6 (3.4) und Runway-Gen4 (3.39).
Ergebnisse der automatisierten Bewertung
In der V-Bench-Bewertung: SkyReels-V2 übertraf alle Vergleichsmodelle, einschließlich HunyuanVideo-13B und Wan2.1-14B, und erzielte die höchste Gesamtpunktzahl (83.9%) und Qualitätspunktzahl (84.7%).
Anwendungsszenarien
1. Story-Generierung
Kann theoretisch unendlich lange narrative Videoinhalte generieren.
2. Bild-zu-Video-Synthese
Wandelt statische Bilder in dynamische Videosequenzen um.
3. Kamera-Regie-Funktion
Bietet professionelle Kamerabewegungs- und Kompositionskontrolle.
4. Konsistente Video-Generierung mit mehreren Subjekten
Ermöglicht die Generierung von Videos mit mehreren Elementen durch das SkyReels-A2-System.
Systemanforderungen
Hardware-Anforderungen
- 1.3B-Modell: Für die Generierung von 540P-Videos werden ca. 14.7GB Spitzen-VRAM benötigt.
- 14B-Modell: Für die Generierung von 540P-Videos werden ca. 51.2GB Spitzen-VRAM (Diffusion Forcing) oder 43.4GB (T2V/I2V) benötigt.
Software-Umgebung
- Python 3.10.12
- Unterstützt Single-GPU- und Multi-GPU-Inferenz
- Integriert xDiT USP für beschleunigte Inferenz
Installation und Nutzung
Basisinstallation
# Repository klonen
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
# Abhängigkeiten installieren
pip install -r requirements.txt
Beispiel für Text-zu-Video-Generierung
model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
Beispiel für unendlich lange Videogenerierung
model_id=Skywork/SkyReels-V2-DF-14B-540P
# Synchrone Inferenz zur Generierung eines 10-Sekunden-Videos
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
Erweiterte Funktionen
1. Video-Erweiterung
Unterstützt die Erweiterung bestehender Videos, um längere Videoinhalte zu erstellen.
2. Start-/Endbild-Steuerung
Ermöglicht die Angabe von Start- und Endbildern für eine präzise Videosteuerung.
3. Prompt-Verbesserer
Eine auf Qwen2.5-32B-Instruct basierende Prompt-Verbesserungsfunktion, die kurze Prompts zu detaillierteren Beschreibungen erweitern kann.
4. Multi-GPU-Beschleunigung
Unterstützt parallele Inferenz über mehrere GPUs mittels xDiT USP, was die Generierungsgeschwindigkeit erheblich steigert.
Verwandte Projekte
- SkyReels-A2: Rahmenwerk für kontrollierte Videogenerierung, das beliebige visuelle Elemente zusammenfügen kann.
- SkyReels-V1: Das erste quelloffene, menschenzentrierte Video-Basismodell.
- SkyCaptioner-V1: Spezielles Modell zur Generierung von Video-Untertiteln.
Open-Source-Informationen
- GitHub-Repository: https://github.com/SkyworkAI/SkyReels-V2
- Hugging Face-Modelle: https://huggingface.co/collections/Skywork/skyreels-v2-6801b1b93df627d441d0d0d9
- Technisches Papier: https://arxiv.org/pdf/2504.13074
- Online-Erlebnis: https://www.skyreels.ai/home
Zusammenfassung
SkyReels-V2 stellt einen bedeutenden Durchbruch in der KI-Videogenerierungstechnologie dar, insbesondere im Bereich der Langform-Videosynthese. Es realisiert nicht nur technische Innovationen, sondern eröffnet auch neue Möglichkeiten für kreative Anwendungen wie Theaterproduktionen und virtuellen E-Commerce, wodurch die Grenzen der kontrollierten Videogenerierung verschoben werden.