Home
Login

نموذج متقدم للذكاء الاصطناعي التوليدي متعدد الوسائط، يدعم إنشاء الصور من النصوص، وتحرير الصور الموجه بالأوامر، والتوليد السياقي.

Apache-2.0Jupyter Notebook 3.4kVectorSpaceLabOmniGen2 Last Updated: 2025-07-05

تفاصيل مشروع OmniGen2

نظرة عامة على المشروع

OmniGen2 هو نموذج متقدم للذكاء الاصطناعي التوليدي متعدد الوسائط، مصمم كحل موحد لمختلف مهام التوليد. إنه نسخة مطورة من OmniGen v1، ويوفر وظائف أقوى وكفاءة أعلى.

الميزات الأساسية

1. بنية موحدة متعددة الوسائط

  • تصميم مسار فك تشفير مزدوج: على عكس OmniGen v1، يتميز OmniGen2 بمسارين فريدين لفك التشفير للوسائط النصية والصورية، مستفيدًا من معلمات غير مشتركة ومُرمّز صور مفكك الارتباط.
  • مبني على Qwen-VL-2.5: مبني على Qwen-VL-2.5، مع مسارات فك تشفير فريدة للوسائط النصية والصورية.
  • لا حاجة لإعادة تكييف مدخلات VAE: يتيح هذا التصميم لـ OmniGen2 البناء على نماذج الفهم متعددة الوسائط الحالية دون الحاجة إلى إعادة تكييف مدخلات VAE.

2. أربع قدرات أساسية

يتمتع OmniGen2 بأداء تنافسي في أربع وظائف رئيسية:

الفهم البصري (Visual Understanding)

  • القدرة على فهم وتحليل محتوى الصور.
  • يدعم مهام الاستدلال البصري المعقدة.

توليد النص إلى صورة (Text-to-Image Generation)

  • يولد صورًا عالية الجودة بناءً على وصف نصي.
  • يدعم متطلبات الإبداع المتنوعة.

تحرير الصور الموجه بالتعليمات (Instruction-Guided Image Editing)

  • يحرر الصور من خلال تعليمات اللغة الطبيعية.
  • قادر على تحرير صورة واحدة، ودمج الصور، وتوحيد المفاهيم والكائنات عبر صور متعددة.

التوليد في السياق (In-Context Generation)

  • يقوم بالتوليد بناءً على معلومات السياق.
  • يدعم مهام معالجة الصور المتعددة المعقدة.

3. المزايا التقنية

قدرة معالجة عالية الكفاءة

  • يتفوق في إدخال الصور الفردية والمتعددة، وقادر على توليد صور عالية الجودة تحترم صور الإدخال الأصلية وتتوافق مع المطالبات النصية.
  • يدعم تفريغ وحدة المعالجة المركزية (CPU) لتحسين كفاءة الاستدلال.

سيناريوهات تطبيق مرنة

  • مناسب للمبدعين والمطورين والشركات.
  • يدعم إطارًا موحدًا لمهام التوليد المتعددة.

البنية التقنية

بنية المكون المزدوج

يستخدم OmniGen2 بنية مكونة من مكونين:

  • مسار معالجة نصي مستقل.
  • مسار معالجة صور مستقل.
  • مُرمّز صور مفكك الارتباط.

أساس النموذج

  • مبني على نماذج الفهم المتقدمة متعددة الوسائط.
  • يعتمد إطار توليد موحدًا.
  • يدعم التدريب والاستدلال الشاملين.

التثبيت والاستخدام

متطلبات البيئة

# 1. استنساخ المستودع
git clone git@github.com:VectorSpaceLab/OmniGen2.git
cd OmniGen2

# 2. (اختياري) إنشاء بيئة بايثون
conda create -n omnigen2 python=3.11
conda activate omnigen2

# 3. تثبيت التبعيات
# 3.1 تثبيت PyTorch (اختر إصدار CUDA الصحيح)

تكامل الوظائف

  • تكامل Diffusers: يدعم التكامل مع مكتبة Diffusers.
  • عرض ComfyUI: يوفر دعم واجهة ComfyUI.
  • مسار بيانات التدريب: عملية بناء بيانات تدريب كاملة.

خصائص الأداء

جودة التوليد

  • قدرة توليد صور عالية الجودة.
  • فهم وتنفيذ دقيق للتعليمات.
  • الحفاظ على ميزات الصورة الأصلية مع تلبية متطلبات التحرير.

تحسين الكفاءة

  • يدعم تفريغ وحدة المعالجة المركزية (CPU) لتحسين استخدام الذاكرة.
  • تحسين كفاءة الاستدلال.
  • تحسين استهلاك الذاكرة والتكلفة الزمنية.

سيناريوهات التطبيق

التصميم الإبداعي

  • إنشاء الفن المفاهيمي.
  • تصور تصميم المنتج.
  • توليد مواد التسويق.

تحرير المحتوى

  • معالجة الصور اللاحقة.
  • تحويل الأنماط.
  • إضافة/إزالة الكائنات.

التعليم والبحث

  • أداة بحث أكاديمي.
  • عروض تعليمية.
  • إثبات المفهوم.

النظام البيئي مفتوح المصدر

دعم المجتمع

  • ترخيص مفتوح المصدر: Apache-2.0.
  • مجتمع GitHub نشط.
  • تحديثات وتحسينات مستمرة للوظائف.

توفر الموارد

  • شفرة المصدر الكاملة.
  • وثائق مفصلة.
  • أمثلة ودروس تعليمية.

التقارير الفنية والاختبارات المعيارية

نتائج البحث

  • تم نشر تقارير فنية مفصلة.
  • تم توفير اختبار معياري للتوليد في السياق: OmniContext.
  • تقييم وتحسين مستمر للأداء.

توفر النموذج

  • نماذج مدربة مسبقًا متوفرة في مركز نماذج Hugging Face.
  • يدعم النشر المحلي.
  • واجهة برمجة تطبيقات سحابية.

Star History Chart