ظهور نموذج Apple Manzano المذهل: مُعلِّم هجين يحل المشاكل المزدوجة لفهم الصور وتوليدها
ملخص
أصدر فريق أبحاث أبل مؤخرًا نموذج لغة كبير موحد متعدد الوسائط يُدعى Manzano، والذي أظهر قدرات رائدة في مجالات فهم الصور وتوليدها. يعتمد Manzano بنية مُرمِّز صور هجين، مما يمكنه من معالجة مهام فهم الصور وتوليدها في آن واحد. وقد حقق النموذج مستويات رائدة في الصناعة في العديد من الاختبارات المعيارية، خاصة في مهام فهم الصور الكثيفة بالنصوص.
أصدر فريق أبحاث شركة أبل في سبتمبر 2025 نموذج صور مبتكرًا يُدعى Manzano (والذي يعني "شجرة التفاح" باللغة الإسبانية). يُعد هذا النموذج، بصفته نموذج لغة كبير موحد متعدد الوسائط، اختراقًا يتجاوز معضلة المفاضلة في الأداء بين فهم الصور وتوليدها التي تواجه النماذج مفتوحة المصدر الحالية.
وفقًا للورقة البحثية التي نشرها فريق أبحاث أبل، يعتمد Manzano تقنية فريدة تُعرف باسم مُرمِّز الصور الهجين (Hybrid Image Tokenizer). تتكون هذه البنية من ثلاثة مكونات أساسية: مُشفِّر بصري موحد، ومُفكِّك تشفير نموذج اللغة الكبير، ومُفكِّك تشفير صور للمخرجات النهائية. يستطيع المُرمِّز الهجين، في هذا السياق، توليد نوعين من الرموز (tokens) من نفس المُشفِّر – رموز متصلة لمهام الفهم ورموز منفصلة لمهام التوليد.
من الناحية التقنية، تم تدريب Manzano على ثلاث مراحل. استخدمت مرحلة ما قبل التدريب 2.3 مليار زوج من الصور والنصوص و1 مليار زوج من النصوص إلى الصور، بإجمالي 1.6 تريليون رمز (token). يتوفر النموذج بإصدارات متعددة من حيث حجم المعلمات، بما في ذلك 300 مليون، 1 مليار، 3 مليارات، و30 مليار معلمة، وتتراوح معلمات مُفكِّك تشفير الصور الخاص به من 900 مليون إلى 3.52 مليار، ويدعم مخرجات بدقة متعددة تتراوح من 256 إلى 2048 بكسل.
في تقييم الأداء، أظهر Manzano أداءً متميزًا في الاختبارات المعيارية لفهم الصور. حقق إصدار الـ 3 مليارات معلمة 93.5 نقطة في اختبار DocVQA، و85.7 نقطة في اختبار OCRBench، و69.8 نقطة في اختبار MathVista. تصدر إصدار الـ 30 مليار معلمة الاختبارات المعيارية القائمة على استدلال المعرفة مثل ScienceQA وMMMU.
كانت قدرات توليد الصور مبهرة بنفس القدر. في التقييمات الآلية مثل GenEval وWISE، كان أداء Manzano مكافئًا للأنظمة التجارية مثل GPT-4o وNano Banana من جوجل. أظهر التقييم البشري أن النموذج حصل على درجات عالية في الأبعاد الثلاثة: السلامة الهيكلية، والالتزام بالتعليمات، والجودة الجمالية.
من الجدير بالذكر أن Manzano يدعم أيضًا العديد من وظائف تحرير الصور، بما في ذلك التحرير القائم على التعليمات، ونقل الأسلوب، وإصلاح الصور (inpainting)، وتوسيع الصور (outpainting)، وتقدير العمق، وغيرها. تتحقق هذه الوظائف من خلال جعل نموذج اللغة الكبير ومُفكِّك تشفير الانتشار (diffusion decoder) يعملان معًا بناءً على صورة مرجعية.
أكد فريق أبحاث أبل في ورقته البحثية أن فلسفة تصميم Manzano ترتكز على البساطة وقابلية التوسع. يستخدم النموذج دالة هدف موحدة ذاتية الانحدار، ولا يتطلب خسائر مساعدة إضافية أو رؤوسًا خاصة بالمهام، كما أن مكوناته مفككة بوضوح، مما يسهل توسيعها بشكل مستقل. أظهرت الأبحاث أن توسيع نطاق مُفكِّك تشفير نموذج اللغة يؤدي إلى تحسينات متسقة في الأداء في مهام الفهم والتوليد.
حاليًا، لم يتم إصدار Manzano للجمهور، ولم يتم توفير نسخة تجريبية منه. اكتفى فريق أبحاث أبل بمشاركة الورقة البحثية وعينات صور منخفضة الدقة للمجتمع البحثي كمرجع. تم نشر نتائج أبحاث هذا النموذج علنًا على منصة arXiv.
يرى خبراء الصناعة أن Manzano يمثل اتجاهًا جديدًا في تطوير النماذج الموحدة متعددة الوسائط. تخفف بنيته القائمة على المُرمِّز الهجين بفعالية من التعارض بين مهام الفهم البصري والتوليد، مما يوفر أفكارًا جديدة لتصميم أنظمة الذكاء الاصطناعي متعددة الوسائط في المستقبل. مع التوسع المستمر في حجم النموذج وتحسين أساليب التدريب، من المتوقع أن تلعب النماذج الموحدة متعددة الوسائط دورًا في المزيد من سيناريوهات التطبيق العملي.