إطار عمل لتوليد الفيديو مشروط بالذاكرة لإنشاء مقاطع فيديو سردية طويلة متماسكة ومتعددة اللقطات مع اتساق عبر اللقطات
StoryMem: سرد القصص الطويلة للفيديو متعدد اللقطات بالذاكرة
نظرة عامة
StoryMem هو إطار عمل متطور للذكاء الاصطناعي طوره باحثون من مختبر S-Lab بجامعة نانيانغ التكنولوجية (NTU) و ByteDance، والذي يُحدث ثورة في توليد الفيديو الطويل من خلال تمكين مقاطع الفيديو السردية المتماسكة والمتعددة اللقطات بجودة سينمائية. يعالج النظام تحديًا أساسيًا في توليد الفيديو بالذكاء الاصطناعي: الحفاظ على الاتساق البصري والتماسك السردي عبر لقطات متعددة في سيناريوهات سرد القصص الممتدة.
الابتكار الأساسي
نموذج الذاكرة إلى الفيديو (M2V)
يقدم المشروع تصميمًا جديدًا للذاكرة إلى الفيديو (M2V) يحول نماذج الانتشار للفيديو أحادي اللقطة المدربة مسبقًا إلى رواة قصص متعددين اللقطات. يعيد هذا النموذج صياغة سرد القصص الطويلة للفيديو كتوليف لقطات تكراري مشروط بذاكرة بصرية صريحة، مستوحاة من آليات الذاكرة البشرية.
المكونات التقنية الرئيسية
- بنك الذاكرة الديناميكي: يحتفظ ببنك ذاكرة مضغوط ومحدث ديناميكيًا للإطارات الرئيسية المستخرجة من اللقطات التي تم إنشاؤها مسبقًا.
- حقن الذاكرة: يتم حقن الذاكرة المخزنة في نماذج انتشار الفيديو أحادي اللقطة عبر تسلسل كامن وتحولات RoPE (تضمين الموضع الدوراني) السلبية.
- ضبط LoRA الدقيق: يحقق تكيفًا فعالًا مع ضبط LoRA (التكيف منخفض الرتبة) فقط.
- اختيار الإطارات الرئيسية الدلالية: يستخدم استراتيجية ذكية لاختيار الإطارات الرئيسية مع تصفية التفضيلات الجمالية لضمان ذاكرة غنية بالمعلومات ومستقرة طوال عملية الإنشاء.
البنية التقنية
النماذج الأساسية
يعتمد StoryMem على إطار عمل توليد الفيديو Wan2.2:
- Wan2.2 T2V-A14B: نموذج النص إلى الفيديو (خليط الخبراء).
- Wan2.2 I2V-A14B: نموذج الصورة إلى الفيديو (خليط الخبراء).
- StoryMem M2V LoRA: نماذج مضبوطة بدقة مشروطة بالذاكرة.
خط أنابيب الإنشاء
يعمل النظام من خلال عملية تكرارية:
- إنشاء اللقطة الأولية: يستخدم نموذج T2V لإنشاء اللقطة الأولى كذاكرة أولية.
- توليف اللقطات التكراري: ينشئ اللقطات اللاحقة مشروطة ببنك الذاكرة.
- استخراج الإطارات الرئيسية: يستخرج تلقائيًا الإطارات الرئيسية من كل لقطة تم إنشاؤها.
- تحديث الذاكرة: يحدث بنك الذاكرة بإطارات رئيسية جديدة للتكرار التالي.
- الاتساق عبر اللقطات: يحافظ على مظهر الشخصية وعناصر المشهد والتدفق السردي.
الميزات المتقدمة
MI2V (الذاكرة + الصورة إلى الفيديو)
يمكّن الانتقالات السلسة بين اللقطات المتجاورة من خلال الاشتراط على الذاكرة والإطار الأول للقطة التالية عندما لا يكون هناك قطع مشهد مقصود. هذا يخلق استمرارية سلسة في التدفق السردي.
MM2V (الذاكرة + الحركة إلى الفيديو)
يدعم اشتراط الذاكرة بأول 5 إطارات حركة، مما يوفر انتقالات لقطات أكثر سلاسة من خلال دمج معلومات الحركة الزمنية.
MR2V (الذاكرة + المرجع إلى الفيديو)
يسمح للمستخدمين بتوفير صور مرجعية كذاكرة أولية، مما يتيح إنشاء قصص مخصصة بشخصيات أو خلفيات محددة تم إنشاؤها من البداية.
ST-Bench: معيار التقييم
لتسهيل التقييم الشامل، قدم الباحثون ST-Bench، وهو معيار متنوع لسرد القصص الطويلة للفيديو يتضمن:
- 30 نصًا قصصيًا طويلاً يغطي أنماطًا متنوعة.
- 8-12 موجهًا نصيًا على مستوى اللقطة لكل قصة.
- 300 موجه فيديو مفصل إجمالي يصف الشخصيات والمشاهد والديناميكيات وأنواع اللقطات وحركات الكاميرا.
- مؤشرات قطع المشهد لمعالجة انتقالات اللقطات بشكل صحيح.
إنجازات الأداء
يُظهر StoryMem تحسينات كبيرة مقارنة بالطرق الحالية:
- تحسن بنسبة 28.7% في الاتساق عبر اللقطات مقارنة بخطوط الأساس القوية.
- جودة بصرية فائقة: يحافظ على معايير جمالية عالية والالتزام بالمطالبات.
- إنشاء فعال: تكاليف حسابية للقطة واحدة لمخرجات متعددة اللقطات.
- مقاطع فيديو مدتها دقيقة واحدة: قادر على إنشاء روايات متماسكة تتجاوز 60 ثانية.
المواصفات التقنية
متطلبات النظام
- Python 3.11
- وحدة معالجة رسومات متوافقة مع CUDA
- دعم Flash Attention
- ذاكرة وصول عشوائي للفيديو (VRAM) كافية لنماذج انتشار الفيديو.
المعلمات الرئيسية
- دقة الإخراج: افتراضي 832 × 480، قابل للتكوين.
- الحد الأقصى لحجم الذاكرة: افتراضي 10 لقطات، قابل للتعديل.
- إدارة الذاكرة: تحديثات ديناميكية مع تصفية دلالية.
- البذرة العشوائية: دعم الإنشاء القابل للتكرار.
حالات الاستخدام والتطبيقات
- إنشاء الفيديو السردي: إنشاء قصص كاملة بمشاهد متعددة.
- محتوى متسق مع الشخصية: الحفاظ على هوية الشخصية عبر تسلسلات ممتدة.
- سرد القصص المخصص: استخدام الصور المرجعية لروايات شخصية.
- الإنتاجات السينمائية: إنشاء مقاطع فيديو بتكوين لقطات وانتقالات احترافية.
- المحتوى التعليمي: إنشاء مقاطع فيديو توضيحية بمشاهد متسلسلة.
تأثير البحث
يمثل الإطار تقدمًا كبيرًا في توليد الفيديو بالذكاء الاصطناعي من خلال:
- سد الفجوة بين جودة اللقطة الواحدة والاتساق متعدد اللقطات.
- تقديم آليات ذاكرة عملية للتماسك الزمني.
- توفير نهج ضبط دقيق فعال عبر LoRA.
- وضع معايير تقييم من خلال ST-Bench.
- تمكين إنشاء الفيديو الطويل المتاح.
تفاصيل التنفيذ
تنسيق نص القصة
يستخدم النظام نصوص القصص بتنسيق JSON مع:
- story_overview: ملخص السرد.
- scene_num: فهرسة المشهد المتسلسل.
- cut: مؤشرات انتقال المشهد (صحيح/خطأ).
- video_prompts: أوصاف نصية على مستوى اللقطة.
سير عمل الإنشاء
- تحميل النماذج الأساسية (T2V/I2V) وأوزان LoRA.
- تحليل نص القصة مع أوصاف اللقطات.
- إنشاء اللقطة الأولية أو تحميل الصور المرجعية.
- الدخول في حلقة الإنشاء التكراري.
- استخراج الإطارات الرئيسية وتصفيتها.
- تحديث بنك الذاكرة.
- إنشاء اللقطة التالية مشروطة بالذاكرة.
- التكرار حتى اكتمال القصة.
الاتجاهات المستقبلية
يفتح الإطار مسارات لـ:
- قدرات طول فيديو ممتدة.
- تخصيص محسّن للشخصيات.
- آليات تماسك زمني محسّنة.
- معالجة قصص متعددة الشخصيات.
- تطبيقات سرد القصص التفاعلية.
الاستشهاد
@article{zhang2025storymem,
title={{StoryMem}: Multi-shot Long Video Storytelling with Memory},
author={Zhang, Kaiwen and Jiang, Liming and Wang, Angtian and
Fang, Jacob Zhiyuan and Zhi, Tiancheng and Yan, Qing and
Kang, Hao and Lu, Xin and Pan, Xingang},
journal={arXiv preprint},
volume={arXiv:2512.19539},
year={2025}
}
الموارد
- ورقة بحثية: arXiv:2512.19539
- صفحة المشروع: kevin-thu.github.io/StoryMem
- مستودع الكود: GitHub - Kevin-thu/StoryMem
- أوزان النموذج: Hugging Face - Kevin-thu/StoryMem
شكر وتقدير
يعتمد StoryMem على إطار عمل Wan2.2 ويمثل بحثًا تعاونيًا بين مختبر S-Lab بجامعة NTU و ByteDance، مما يدفع حدود أحدث ما توصلت إليه التكنولوجيا في سرد القصص المرئي المدعوم بالذكاء الاصطناعي.