世界初の無限長映画生成モデル。Diffusion Forcingアーキテクチャを採用し、プロレベルの映像品質を実現。

NOASSERTIONPythonSkyReels-V2SkyworkAI 4.4k Last Updated: August 11, 2025

SkyReels-V2:無限長動画生成モデル

プロジェクト概要

SkyReels-V2は、SkyworkAIが開発した世界初の無限長動画生成モデルであり、AutoRegressive Diffusion-Forcingアーキテクチャを採用し、公開されているモデルの中でSOTA(最先端)性能を達成しました。このプロジェクトは、動画生成技術における画期的な進歩を意味し、理論上無限長の高品質な映画レベルの動画コンテンツを生成できます。

コア技術特性

1. Diffusion Forcing アーキテクチャ

Diffusion Forcingは、各トークンに独立したノイズレベルを割り当てるトレーニングおよびサンプリング戦略です。これにより、トークンは任意の、トークンごとのスケジュールに基づいてノイズ除去を行うことができます。概念的には、この方法は部分的なマスク形式に相当します。ノイズがゼロのトークンは完全にマスクされておらず、完全にノイズのあるトークンは完全にマスクされています。

2. マルチモーダル技術融合

この手法は、マルチモーダル大規模言語モデル(MLLM)、多段階事前学習、強化学習、およびDiffusion Forcing技術を統合し、包括的な最適化を実現しています。

3. 動画キャプション生成器(SkyCaptioner-V1)

SkyCaptioner-V1は、Qwen2.5-VL-7B-Instruct基盤モデルをベースに、ドメイン固有の動画キャプションタスク向けにファインチューニングされており、異なるキャプション領域の精度評価において最高の平均精度を達成しました。

モデルバリアント

プロジェクトでは、さまざまなニーズに対応するために複数のモデルバリアントを提供しています。

Diffusion Forcing モデルシリーズ

  • SkyReels-V2-DF-1.3B-540P: 低パラメータバージョン、推奨解像度 544×960、97フレーム
  • SkyReels-V2-DF-14B-540P: 標準バージョン、540P動画生成に適しています
  • SkyReels-V2-DF-14B-720P: 高解像度バージョン、720P動画生成をサポート

テキストから動画へのモデル(T2V)

  • SkyReels-V2-T2V-14B-540P: テキストから動画への生成に特化
  • SkyReels-V2-T2V-14B-720P: 高解像度テキストから動画へのモデル

画像から動画へのモデル(I2V)

  • SkyReels-V2-I2V-1.3B-540P: 軽量画像から動画へのモデル
  • SkyReels-V2-I2V-14B-540P: 標準画像から動画へのモデル
  • SkyReels-V2-I2V-14B-720P: 高解像度画像から動画へのモデル

技術革新点

1. 強化学習最適化

テキストアライメントや動画品質などの他の指標の劣化を避けるため、チームは、テキストアライメントと動画品質において比較可能な選好データペアを確保し、運動品質のみが異なるようにしました。この強化されたデータセットを利用して、まずペアのサンプル間の一般的な運動品質の差異を捉えるための専用の報酬モデルをトレーニングしました。

2. 多段階トレーニングプロセス

プロジェクトでは、4段階のトレーニング強化プロセスを採用しています。

  • 初期概念バランス型教師ありファインチューニング(SFT):ベースライン品質の向上
  • 運動特化型強化学習(RL)トレーニング:動的アーティファクト問題の解決
  • Diffusion Forcingフレームワーク:長尺動画合成の実現
  • 最終的な高品質SFT:視覚的忠実度の洗練

3. 解像度漸進的トレーニング

540pと720p解像度での2つの連続した高品質教師ありファインチューニング(SFT)段階が実施され、最初のSFT段階は事前学習後、強化学習段階の直前に行われます。

性能表現

人工評価結果

SkyReels-Bench評価において:

  • テキストから動画へのモデル:指示への追従性(3.15)で優れた性能を発揮し、一貫性(3.35)で競争力を維持
  • 画像から動画へのモデル:SkyReels-V2-I2Vは平均スコア3.29を記録し、プロプライエタリモデルのKling-1.6(3.4)およびRunway-Gen4(3.39)に匹敵します

自動評価結果

V-Bench評価において: SkyReels-V2は、HunyuanVideo-13BやWan2.1-14Bを含むすべての比較モデルを上回り、最高の総合スコア(83.9%)と品質スコア(84.7%)を獲得しました。

応用シナリオ

1. ストーリー生成

理論上無限長の物語動画コンテンツを生成可能

2. 画像から動画への合成

静止画像を動的な動画シーケンスに変換

3. カメラディレクター機能

プロフェッショナルなカメラワークと構図制御を提供

4. マルチ主体一貫性動画生成

SkyReels-A2システムにより、複数の要素を組み合わせた動画生成を実現

システム要件

ハードウェア要件

  • 1.3Bモデル:540P動画生成には約14.7GBのピークVRAMが必要
  • 14Bモデル:540P動画生成には約51.2GBのピークVRAM(Diffusion Forcing)または43.4GB(T2V/I2V)が必要

ソフトウェア環境

  • Python 3.10.12
  • シングルGPUおよびマルチGPU推論をサポート
  • xDiT USPによる高速推論を統合

インストールと使用

基本インストール

# リポジトリをクローン
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2

# 依存関係をインストール
pip install -r requirements.txt

テキストから動画への生成例

model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

無限長動画生成例

model_id=Skywork/SkyReels-V2-DF-14B-540P
# 同期推論で10秒動画を生成
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

高度な機能

1. 動画拡張

既存の動画を基に拡張し、より長い動画コンテンツを実現

2. 開始/終了フレーム制御

動画の開始フレームと終了フレームを指定し、正確な動画制御を実現

3. プロンプトエンハンサー

Qwen2.5-32B-Instructをベースにしたプロンプトエンハンサー機能により、短いプロンプトをより詳細な記述に拡張可能

4. マルチGPU加速

xDiT USPによるマルチGPU並列推論をサポートし、生成速度を大幅に向上

関連プロジェクト

  • SkyReels-A2:任意の視覚要素を組み合わせ可能な、制御可能な動画生成フレームワーク
  • SkyReels-V1:初のオープンソースの人間中心動画基盤モデル
  • SkyCaptioner-V1:専用の動画キャプション生成モデル

オープンソース情報

まとめ

SkyReels-V2は、特に長尺動画合成において、AI動画生成技術の大きなブレークスルーを意味します。技術的な革新だけでなく、ドラマ制作やバーチャルEコマースなどのクリエイティブな応用分野に新たな可能性をもたらし、制御可能な動画生成の限界を押し広げています。

Star History Chart