Das weltweit erste Modell zur Generierung von Filmen unbegrenzter Länge, das die Diffusion-Forcing-Architektur für die Erzeugung von Videos in professioneller Filmqualität verwendet.

NOASSERTIONPythonSkyReels-V2SkyworkAI 4.4k Last Updated: August 11, 2025

SkyReels-V2: Modell zur Generierung von Filmen unendlicher Länge

Projektübersicht

SkyReels-V2 ist das weltweit erste Modell zur Generierung von Filmen unendlicher Länge, entwickelt von SkyworkAI. Es verwendet eine AutoRegressive Diffusion-Forcing-Architektur und erreicht SOTA (State-of-the-Art)-Leistung unter den öffentlich verfügbaren Modellen. Dieses Projekt stellt einen bedeutenden Durchbruch in der Videogenerierungstechnologie dar, der die Erzeugung von theoretisch unendlich langen, hochwertigen Videoinhalten in Kinoqualität ermöglicht.

Technische Kernmerkmale

1. Diffusion Forcing Architektur

Diffusion Forcing ist eine Trainings- und Samplingstrategie, die jedem Token unabhängige Rauschpegel zuweist. Dies ermöglicht das Entrauschen von Tokens gemäß beliebigen, pro-Token definierten Zeitplänen. Konzeptionell entspricht diese Methode einer Form der partiellen Maskierung: Tokens mit null Rauschen sind vollständig unmaskiert, während vollständig verrauschte Tokens vollständig maskiert sind.

2. Multimodale Technologieintegration

Die Methode kombiniert multimodale große Sprachmodelle (MLLM), mehrstufiges Vortraining, Reinforcement Learning und Diffusion Forcing-Technologien, um eine umfassende Optimierung zu erreichen.

3. Video-Untertitelgenerator (SkyCaptioner-V1)

SkyCaptioner-V1 basiert auf dem Qwen2.5-VL-7B-Instruct-Basismodell und wurde für domänenspezifische Video-Untertitelungsaufgaben feinabgestimmt. Es erreichte die höchste durchschnittliche Genauigkeit bei der Bewertung der Genauigkeit in verschiedenen Untertitelungsbereichen.

Modellvarianten

Das Projekt bietet mehrere Modellvarianten, um unterschiedliche Anforderungen zu erfüllen:

Diffusion Forcing Modellreihe

  • SkyReels-V2-DF-1.3B-540P: Version mit geringer Parameterzahl, empfohlene Auflösung 544×960, 97 Frames
  • SkyReels-V2-DF-14B-540P: Standardversion, geeignet für 540P-Videogenerierung
  • SkyReels-V2-DF-14B-720P: Hochauflösende Version, unterstützt 720P-Videogenerierung

Text-zu-Video-Modell (T2V)

  • SkyReels-V2-T2V-14B-540P: Speziell für die Text-zu-Video-Generierung
  • SkyReels-V2-T2V-14B-720P: Hochauflösendes Text-zu-Video-Modell

Bild-zu-Video-Modell (I2V)

  • SkyReels-V2-I2V-1.3B-540P: Leichtgewichtiges Bild-zu-Video-Modell
  • SkyReels-V2-I2V-14B-540P: Standard-Bild-zu-Video-Modell
  • SkyReels-V2-I2V-14B-720P: Hochauflösendes Bild-zu-Video-Modell

Technische Innovationspunkte

1. Optimierung durch Reinforcement Learning

Um die Verschlechterung anderer Metriken wie Textausrichtung und Videoqualität zu vermeiden, stellte das Team sicher, dass die Präferenzdatenpaare in Bezug auf Textausrichtung und Videoqualität vergleichbar waren, während sich nur die Bewegungsqualität unterschied. Mithilfe dieses erweiterten Datensatzes wurde zunächst ein spezielles Belohnungsmodell trainiert, um allgemeine Unterschiede in der Bewegungsqualität zwischen gepaarten Samples zu erfassen.

2. Mehrstufiger Trainingsprozess

Das Projekt verwendet einen vierstufigen Trainingsverbesserungsprozess:

  • Initiales konzeptbasiertes überwachtes Fein-Tuning (SFT): zur Verbesserung der Basisqualität
  • Bewegungsspezifisches Reinforcement Learning (RL) Training: zur Behebung dynamischer Artefakte
  • Diffusion Forcing Framework: zur Realisierung der Langvideo-Synthese
  • Finales hochwertiges SFT: zur Verfeinerung der visuellen Wiedergabetreue

3. Progressives Auflösungstraining

Es wurden zwei aufeinanderfolgende hochwertige überwachte Fein-Tuning (SFT)-Phasen für 540p- und 720p-Auflösungen implementiert, wobei die initiale SFT-Phase unmittelbar nach dem Vortraining, aber vor der Reinforcement Learning-Phase stattfand.

Leistungsmerkmale

Ergebnisse der menschlichen Bewertung

In der SkyReels-Bench-Bewertung:

  • Text-zu-Video-Modell: Zeigte hervorragende Leistungen bei der Befolgung von Anweisungen (3.15) und blieb bei der Konsistenz (3.35) wettbewerbsfähig.
  • Bild-zu-Video-Modell: SkyReels-V2-I2V erreichte einen Durchschnittswert von 3.29, vergleichbar mit den proprietären Modellen Kling-1.6 (3.4) und Runway-Gen4 (3.39).

Ergebnisse der automatisierten Bewertung

In der V-Bench-Bewertung: SkyReels-V2 übertraf alle Vergleichsmodelle, einschließlich HunyuanVideo-13B und Wan2.1-14B, und erzielte die höchste Gesamtpunktzahl (83.9%) und Qualitätspunktzahl (84.7%).

Anwendungsszenarien

1. Story-Generierung

Kann theoretisch unendlich lange narrative Videoinhalte generieren.

2. Bild-zu-Video-Synthese

Wandelt statische Bilder in dynamische Videosequenzen um.

3. Kamera-Regie-Funktion

Bietet professionelle Kamerabewegungs- und Kompositionskontrolle.

4. Konsistente Video-Generierung mit mehreren Subjekten

Ermöglicht die Generierung von Videos mit mehreren Elementen durch das SkyReels-A2-System.

Systemanforderungen

Hardware-Anforderungen

  • 1.3B-Modell: Für die Generierung von 540P-Videos werden ca. 14.7GB Spitzen-VRAM benötigt.
  • 14B-Modell: Für die Generierung von 540P-Videos werden ca. 51.2GB Spitzen-VRAM (Diffusion Forcing) oder 43.4GB (T2V/I2V) benötigt.

Software-Umgebung

  • Python 3.10.12
  • Unterstützt Single-GPU- und Multi-GPU-Inferenz
  • Integriert xDiT USP für beschleunigte Inferenz

Installation und Nutzung

Basisinstallation

# Repository klonen
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2

# Abhängigkeiten installieren
pip install -r requirements.txt

Beispiel für Text-zu-Video-Generierung

model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

Beispiel für unendlich lange Videogenerierung

model_id=Skywork/SkyReels-V2-DF-14B-540P
# Synchrone Inferenz zur Generierung eines 10-Sekunden-Videos
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

Erweiterte Funktionen

1. Video-Erweiterung

Unterstützt die Erweiterung bestehender Videos, um längere Videoinhalte zu erstellen.

2. Start-/Endbild-Steuerung

Ermöglicht die Angabe von Start- und Endbildern für eine präzise Videosteuerung.

3. Prompt-Verbesserer

Eine auf Qwen2.5-32B-Instruct basierende Prompt-Verbesserungsfunktion, die kurze Prompts zu detaillierteren Beschreibungen erweitern kann.

4. Multi-GPU-Beschleunigung

Unterstützt parallele Inferenz über mehrere GPUs mittels xDiT USP, was die Generierungsgeschwindigkeit erheblich steigert.

Verwandte Projekte

  • SkyReels-A2: Rahmenwerk für kontrollierte Videogenerierung, das beliebige visuelle Elemente zusammenfügen kann.
  • SkyReels-V1: Das erste quelloffene, menschenzentrierte Video-Basismodell.
  • SkyCaptioner-V1: Spezielles Modell zur Generierung von Video-Untertiteln.

Open-Source-Informationen

Zusammenfassung

SkyReels-V2 stellt einen bedeutenden Durchbruch in der KI-Videogenerierungstechnologie dar, insbesondere im Bereich der Langform-Videosynthese. Es realisiert nicht nur technische Innovationen, sondern eröffnet auch neue Möglichkeiten für kreative Anwendungen wie Theaterproduktionen und virtuellen E-Commerce, wodurch die Grenzen der kontrollierten Videogenerierung verschoben werden.

Star History Chart