أول نموذج في العالم لتوليد أفلام ذات طول غير محدود، يستخدم بنية Diffusion Forcing لتحقيق إنتاج فيديو احترافي بجودة الأفلام.

NOASSERTIONPythonSkyReels-V2SkyworkAI 4.4k Last Updated: August 11, 2025

SkyReels-V2: نموذج توليد الأفلام بطول غير محدود

نظرة عامة على المشروع

SkyReels-V2 هو أول نموذج في العالم لتوليد الأفلام بطول غير محدود، تم تطويره بواسطة SkyworkAI، ويستخدم بنية AutoRegressive Diffusion-Forcing، محققًا أداءً هو الأحدث (SOTA) بين النماذج المتاحة للجمهور. يمثل هذا المشروع إنجازًا كبيرًا في تقنية توليد الفيديو، حيث يمكنه توليد محتوى فيديو بجودة سينمائية بطول غير محدود نظريًا.

الميزات التقنية الأساسية

1. بنية Diffusion Forcing

Diffusion Forcing هي استراتيجية تدريب وأخذ عينات تخصص مستوى ضوضاء مستقلاً لكل رمز (token). يسمح هذا بإزالة الضوضاء من الرموز وفقًا لجدول زمني عشوائي لكل رمز. من الناحية المفاهيمية، تعادل هذه الطريقة شكلاً من أشكال الإخفاء الجزئي: الرموز ذات الضوضاء الصفرية تكون غير مخفية تمامًا، بينما الرموز ذات الضوضاء الكاملة تكون مخفية تمامًا.

2. دمج التقنيات متعددة الوسائط

تجمع هذه الطريقة بين نماذج اللغة الكبيرة متعددة الوسائط (MLLM)، والتدريب المسبق متعدد المراحل، والتعلم المعزز، وتقنيات Diffusion Forcing لتحقيق التحسين الشامل.

3. مولد ترجمات الفيديو (SkyCaptioner-V1)

يعتمد SkyCaptioner-V1 على النموذج الأساسي Qwen2.5-VL-7B-Instruct وتم ضبطه بدقة لمهام ترجمة الفيديو الخاصة بالمجال، محققًا أعلى متوسط دقة في تقييمات الدقة عبر مجالات الترجمة المختلفة.

متغيرات النموذج

يوفر المشروع عدة متغيرات للنموذج لتلبية الاحتياجات المختلفة:

سلسلة نماذج Diffusion Forcing

  • SkyReels-V2-DF-1.3B-540P: إصدار بمعلمات منخفضة، دقة موصى بها 544×960، 97 إطارًا
  • SkyReels-V2-DF-14B-540P: إصدار قياسي، مناسب لتوليد فيديو بدقة 540P
  • SkyReels-V2-DF-14B-720P: إصدار عالي الدقة، يدعم توليد فيديو بدقة 720P

نماذج تحويل النص إلى فيديو (T2V)

  • SkyReels-V2-T2V-14B-540P: مخصص لتوليد الفيديو من النص
  • SkyReels-V2-T2V-14B-720P: نموذج تحويل النص إلى فيديو عالي الدقة

نماذج تحويل الصورة إلى فيديو (I2V)

  • SkyReels-V2-I2V-1.3B-540P: نموذج خفيف الوزن لتحويل الصورة إلى فيديو
  • SkyReels-V2-I2V-14B-540P: نموذج قياسي لتحويل الصورة إلى فيديو
  • SkyReels-V2-I2V-14B-720P: نموذج عالي الدقة لتحويل الصورة إلى فيديو

نقاط الابتكار التقني

1. تحسين التعلم المعزز

لتجنب تدهور المؤشرات الأخرى، مثل محاذاة النص وجودة الفيديو، حرص الفريق على أن تكون أزواج بيانات التفضيل قابلة للمقارنة من حيث محاذاة النص وجودة الفيديو، مع اختلاف جودة الحركة فقط. باستخدام مجموعة البيانات المحسنة هذه، تم تدريب نموذج مكافأة متخصص أولاً لالتقاط اختلافات جودة الحركة العامة بين العينات المقترنة.

2. سير عمل التدريب متعدد المراحل

اعتمد المشروع سير عمل تدريب معزز من أربع مراحل:

  • الضبط الدقيق الأولي الخاضع للإشراف لتوازن المفاهيم (SFT): لتحسين جودة الخط الأساسي
  • تدريب التعلم المعزز (RL) الخاص بالحركة: لمعالجة مشكلات التحف الديناميكية
  • إطار عمل Diffusion Forcing: لتحقيق تركيب الفيديو الطويل
  • الضبط الدقيق النهائي عالي الجودة (SFT): لتحسين الدقة البصرية

3. التدريب التدريجي على الدقة

تم تنفيذ مرحلتين متتاليتين من الضبط الدقيق عالي الجودة الخاضع للإشراف (SFT) بدقتي 540p و 720p، حيث تم إجراء مرحلة SFT الأولية مباشرة بعد التدريب المسبق وقبل مرحلة التعلم المعزز.

الأداء

نتائج التقييم البشري

في تقييم SkyReels-Bench:

  • نماذج تحويل النص إلى فيديو: أظهرت أداءً ممتازًا في اتباع التعليمات (3.15) وحافظت على ميزة تنافسية في الاتساق (3.35)
  • نماذج تحويل الصورة إلى فيديو: حقق SkyReels-V2-I2V متوسط درجة 3.29، وهو ما يضاهي النماذج الاحتكارية مثل Kling-1.6 (3.4) و Runway-Gen4 (3.39)

نتائج التقييم الآلي

في تقييم V-Bench: تجاوز SkyReels-V2 جميع النماذج المقارنة، بما في ذلك HunyuanVideo-13B و Wan2.1-14B، وحصل على أعلى درجة إجمالية (83.9%) ودرجة جودة (84.7%).

سيناريوهات التطبيق

1. توليد القصص

يمكنه توليد محتوى فيديو سردي بطول غير محدود نظريًا

2. تركيب الصورة إلى فيديو

تحويل الصور الثابتة إلى تسلسلات فيديو ديناميكية

3. وظيفة إخراج الكاميرا

توفير تحكم احترافي في حركة الكاميرا وتكوين المشهد

4. توليد فيديو متعدد الكيانات المتسق

تحقيق توليد فيديو مركب من عناصر متعددة عبر نظام SkyReels-A2

متطلبات النظام

متطلبات الأجهزة

  • نموذج 1.3B: يتطلب حوالي 14.7 جيجابايت من ذاكرة الوصول العشوائي للفيديو (VRAM) كحد أقصى لتوليد فيديو بدقة 540P
  • نموذج 14B: يتطلب حوالي 51.2 جيجابايت من ذاكرة الوصول العشوائي للفيديو (VRAM) كحد أقصى لتوليد فيديو بدقة 540P (Diffusion Forcing) أو 43.4 جيجابايت (T2V/I2V)

بيئة البرمجيات

  • Python 3.10.12
  • يدعم الاستدلال بوحدة معالجة رسومات واحدة (GPU) ومتعددة
  • يدمج تسريع الاستدلال xDiT USP

التثبيت والاستخدام

التثبيت الأساسي

# استنساخ المستودع
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2

# تثبيت التبعيات
pip install -r requirements.txt

مثال على توليد النص إلى فيديو

model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

مثال على توليد فيديو بطول غير محدود

model_id=Skywork/SkyReels-V2-DF-14B-540P
# استدلال متزامن لتوليد فيديو مدته 10 ثوانٍ
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3

الميزات المتقدمة

1. توسيع الفيديو

يدعم التوسيع بناءً على مقاطع الفيديو الموجودة لتحقيق محتوى فيديو أطول

2. التحكم في إطارات البداية/النهاية

يمكن تحديد إطارات بداية ونهاية الفيديو لتحقيق تحكم دقيق في الفيديو

3. محسن المطالبات

وظيفة تحسين المطالبات تعتمد على Qwen2.5-32B-Instruct، والتي يمكنها توسيع المطالبات القصيرة إلى أوصاف أكثر تفصيلاً

4. تسريع متعدد وحدات معالجة الرسومات (GPU)

يدعم الاستدلال المتوازي متعدد وحدات معالجة الرسومات (GPU) عبر xDiT USP، مما يعزز سرعة التوليد بشكل كبير

المشاريع ذات الصلة

  • SkyReels-A2: إطار عمل لتوليد الفيديو القابل للتحكم، قادر على تجميع أي عناصر بصرية
  • SkyReels-V1: أول نموذج أساسي مفتوح المصدر للفيديو يركز على الإنسان
  • SkyCaptioner-V1: نموذج متخصص لتوليد ترجمات الفيديو

معلومات المصدر المفتوح

ملخص

يمثل SkyReels-V2 إنجازًا كبيرًا في تقنية توليد الفيديو بالذكاء الاصطناعي، خاصة في تركيب الفيديو طويل الشكل. إنه لا يحقق الابتكار التقني فحسب، بل يوفر أيضًا إمكانيات جديدة للتطبيقات الإبداعية مثل إنتاج الدراما والتجارة الإلكترونية الافتراضية، مما يدفع حدود توليد الفيديو القابل للتحكم.

Star History Chart