غلاف WanVideo لـ ComfyUI، يدعم سلسلة نماذج إنشاء الفيديو بالذكاء الاصطناعي WanVideo 2.1 من Alibaba.
تفاصيل مشروع ComfyUI-WanVideoWrapper
نظرة عامة على المشروع
ComfyUI-WanVideoWrapper هو مكون إضافي (wrapper plugin) تم تطويره خصيصًا لمنصة ComfyUI، ويهدف بشكل أساسي إلى دعم WanVideo والنماذج ذات الصلة. يتم تطوير هذا المشروع وصيانته بواسطة kijai، ويعمل كبيئة "صندوق رمل" تجريبية للاختبار السريع وتنفيذ نماذج ووظائف جديدة لتوليد الفيديو بالذكاء الاصطناعي.
خلفية المشروع
نظرًا لتعقيد الكود الأساسي لـ ComfyUI ونقص خبرة المطورين في البرمجة، ففي كثير من الحالات، يكون تنفيذ النماذج والوظائف الجديدة في مكون إضافي مستقل (wrapper) أسهل وأسرع من تنفيذها مباشرة في النظام الأساسي. وقد وُلد هذا المشروع بناءً على هذه الفلسفة.
فلسفة التصميم
- منصة اختبار سريعة: بيئة للتحقق السريع من الميزات الجديدة
- صندوق رمل شخصي: منصة تجريبية مفتوحة للاستخدام العام
- تجنب مشاكل التوافق: يعمل بشكل مستقل ولا يؤثر على استقرار النظام الرئيسي
- تطوير مستمر: الكود في حالة تطوير دائم وقد يحتوي على مشاكل
الوظائف الأساسية
سلسلة نماذج WanVideo المدعومة
يدعم هذا المكون الإضافي بشكل أساسي سلسلة نماذج Wan 2.1 مفتوحة المصدر من Alibaba، وهو نموذج متقدم لتوليد الفيديو يتميز بأداء رائد:
مميزات نموذج Wan 2.1:
- أداء عالي: يتفوق باستمرار على النماذج مفتوحة المصدر الحالية والحلول التجارية الأكثر تقدمًا في العديد من الاختبارات المعيارية.
- توليد نصوص ثنائية اللغة: أول نموذج فيديو قادر على توليد نصوص باللغتين الصينية والإنجليزية، مع قدرة قوية على توليد النصوص.
- دعم دقة متعددة: يدعم توليد الفيديو بدقتي 480P و 720P.
- محاكاة فيزيائية: يولد مقاطع فيديو تحاكي بدقة التأثيرات الفيزيائية للعالم الحقيقي وتفاعلات الكائنات الواقعية.
مواصفات النموذج:
نموذج T2V-1.3B:
- يتطلب 8.19 جيجابايت فقط من ذاكرة الفيديو (VRAM)، متوافق مع جميع وحدات معالجة الرسوميات (GPU) الاستهلاكية تقريبًا.
- يمكنه توليد فيديو بدقة 480P لمدة 5 ثوانٍ في حوالي 4 دقائق على RTX 4090.
- خفيف الوزن، ومناسب للمستخدمين العاديين.
نموذج T2V-14B/I2V-14B:
- يحقق أداء SOTA (أحدث ما توصلت إليه التكنولوجيا) في كل من النماذج مفتوحة المصدر والمغلقة المصدر.
- يدعم المشاهد البصرية المعقدة وأنماط الحركة.
- مناسب للتطبيقات الاحترافية.
وحدات الوظائف الرئيسية
- تحويل النص إلى فيديو (Text-to-Video)
- تحويل الصورة إلى فيديو (Image-to-Video)
- تحرير الفيديو
- تحويل النص إلى صورة
- تحويل الفيديو إلى صوت
البنية التقنية
المكونات التقنية الأساسية
يعتمد Wan 2.1 في تصميمه على نموذج المحولات الانتشارية (Diffusion Transformer) السائد، وقد حقق تحسينًا كبيرًا في قدرات التوليد من خلال سلسلة من الابتكارات:
- Wan-VAE: بنية VAE سببية ثلاثية الأبعاد جديدة مصممة خصيصًا لتوليد الفيديو، تعمل على تحسين الضغط الزماني والمكاني من خلال استراتيجيات متعددة، وتقليل استخدام الذاكرة، وضمان السببية الزمنية.
- استراتيجية تدريب قابلة للتوسع
- بناء بيانات على نطاق واسع
- مقاييس تقييم آلية
مميزات الأداء
- كفاءة الذاكرة: يمكن لـ Wan-VAE ترميز وفك ترميز مقاطع فيديو بدقة 1080P بطول غير محدود دون فقدان معلومات الوقت التاريخية.
- توافق GPU: يدعم التشغيل على وحدات معالجة الرسوميات (GPU) الاستهلاكية.
- قدرة المعالجة: يدعم توليد الفيديو الطويل ومعالجة المشاهد المعقدة.
التثبيت والاستخدام
خطوات التثبيت
استنساخ المستودع (Clone Repository):
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
تثبيت التبعيات (Install Dependencies):
pip install -r requirements.txt
للتثبيت المحمول (Portable Installation):
python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
تنزيل النماذج
روابط تنزيل النماذج الرئيسية:
- النموذج القياسي: https://huggingface.co/Kijai/WanVideo_comfy/tree/main
- النموذج المحسن FP8 (موصى به): https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled
هيكل ملفات النموذج
ضع ملفات النموذج التي تم تنزيلها في دليل ComfyUI المقابل:
- مُشفّرات النص (Text encoders) →
ComfyUI/models/text_encoders
- رؤية كليب (Clip vision) →
ComfyUI/models/clip_vision
- المحول (Transformer) (نموذج الفيديو الرئيسي) →
ComfyUI/models/diffusion_models
- VAE →
ComfyUI/models/vae
النماذج الإضافية المدعومة
يدعم هذا المكون الإضافي أيضًا العديد من نماذج توليد الفيديو بالذكاء الاصطناعي ذات الصلة:
- SkyReels: نموذج توليد الفيديو الذي طورته Skywork.
- WanVideoFun: نموذج ترفيهي طوره فريق Alibaba PAI.
- ReCamMaster: نموذج إعادة بناء الفيديو الذي طورته Kuaishou VGI.
- VACE: نموذج تحسين الفيديو من مختبر Alibaba Vision.
- Phantom: نموذج توليد الفيديو متعدد الكيانات من معهد ByteDance Research.
- ATI: نموذج نقل الانتباه من معهد ByteDance Research.
- Uni3C: نموذج فهم الفيديو الموحد من أكاديمية Alibaba DAMO.
- EchoShot: نموذج توليد فيديو بورتريه متعدد اللقطات.
- MultiTalk: نموذج توليد فيديو حوار متعدد الأشخاص.
حالات الاستخدام والأمثلة
اختبار توليد الفيديو الطويل
- اختبار 1025 إطار: باستخدام حجم نافذة 81 إطارًا، وتداخل 16 إطارًا.
- نموذج 1.3B T2V: يستخدم أقل من 5 جيجابايت من ذاكرة الفيديو (VRAM) على بطاقة رسوميات 5090، ووقت التوليد 10 دقائق.
- تحسين الذاكرة: يستخدم حوالي 16 جيجابايت من الذاكرة بمواصفات 512x512x81، ويدعم 20/40 كتلة تفريغ (offload).
تحسين تسريع TeaCache
- يجب أن يكون إعداد العتبة في الإصدار الجديد 10 أضعاف القيمة الأصلية.
- النطاق الموصى به للمعامل: 0.25-0.30.
- يمكن أن تبدأ الخطوات الأولية من 0.
- يُنصح ببدء قيم العتبة الأكثر قوة في وقت لاحق لتجنب تخطي الخطوات المبكرة.
المزايا التقنية
- نظام بيئي مفتوح المصدر: مفتوح المصدر بالكامل، بما في ذلك الكود المصدري وجميع النماذج.
- أداء رائد: يتفوق باستمرار على النماذج مفتوحة المصدر الحالية والحلول التجارية الأكثر تقدمًا في العديد من الاختبارات المعيارية الداخلية والخارجية.
- تغطية شاملة: يغطي العديد من التطبيقات النهائية، بما في ذلك تحويل الصورة إلى فيديو، وتحرير الفيديو الموجه بالتعليمات، وتوليد الفيديو الشخصي، ويشمل ما يصل إلى 8 مهام.
- صديق للمستخدمين العاديين: يُظهر نموذج 1.3B كفاءة ممتازة في الموارد، حيث يتطلب 8.19 جيجابايت فقط من ذاكرة الفيديو (VRAM)، ومتوافق مع مجموعة واسعة من وحدات معالجة الرسوميات (GPU) الاستهلاكية.
حالة المشروع وتطوره
التطورات المستقبلية
- ليس الهدف منه التنافس مع سير العمل الأصلي أو تقديم بديل له.
- الهدف النهائي هو المساعدة في استكشاف النماذج والوظائف الجديدة التي تم إصدارها.
- قد يتم دمج بعض الوظائف في النظام الأساسي لـ ComfyUI.
نصائح الاستخدام
سيناريوهات التطبيق
- أبحاث وتجارب توليد الفيديو بالذكاء الاصطناعي.
- الاختبار السريع والتحقق من النماذج الجديدة.
- إنتاج محتوى فيديو إبداعي.
- أغراض تعليمية ودراسية.
ملاحظات هامة
- الكود في حالة تطوير مستمر وقد توجد مشاكل في الاستقرار.
- يُنصح بالاختبار والاستخدام في بيئة مستقلة.
- يتطلب خلفية تقنية معينة وموارد GPU.
الخلاصة
ComfyUI-WanVideoWrapper هو مكون إضافي مبتكر لأدوات توليد الفيديو بالذكاء الاصطناعي، يوفر للمستخدمين طريقة سهلة للوصول إلى أحدث تقنيات توليد الفيديو. بناءً على سلسلة نماذج Wan 2.1 مفتوحة المصدر من Alibaba، يجسد هذا المشروع روح التعاون في مجتمع المصادر المفتوحة مع الحفاظ على الريادة التقنية. وعلى الرغم من أن المشروع لا يزال قيد التطوير المستمر، إلا أن وظائفه القوية ودعمه الواسع للنماذج يجعله أداة مهمة في مجال توليد الفيديو بالذكاء الاصطناعي.