جوجل تكشف النقاب عن هوية نانو بنانا الغامضة: نموذج Gemini 2.5 للذكاء الاصطناعي للصور يقود معايير جديدة في الصناعة
ملخص إخباري
أكدت جوجل رسميًا إطلاق الجيل الجديد من نموذج الذكاء الاصطناعي لتوليد وتحرير الصور، والذي يحمل الاسم الرمزي "نانو بنانا" (Nano Banana)، واسمه الرسمي هو Gemini 2.5 Flash Image. تم إطلاق النموذج رسميًا في تطبيق Gemini بتاريخ 26 أغسطس، بعد أن أحدث ضجة كبيرة على منصة الاختبار المجهولة LMArena، حيث صُنف كأفضل نموذج لتحرير الصور في العالم.
رمز سري يثير التكهنات، وجوجل "تتبناه" رسميًا
في الأسابيع القليلة الماضية، أثار نموذج الذكاء الاصطناعي لتحرير الصور المسمى "نانو بنانا" ضجة كبيرة على وسائل التواصل الاجتماعي. ظهر النموذج لأول مرة على منصة التقييم الجماعي LMArena، حيث "تنافس" بشكل مجهول مع نماذج ذكاء اصطناعي أخرى، ويمكن للمستخدمين إدخال مطالبات لجعل النموذجين المجهولين يتنافسان على توليد أفضل النتائج. والمثير للدهشة أن هذا النموذج الغامض استمر في التغلب على منافسيه في تصنيفات تحرير الصور، مما أثار اهتمامًا وتكهنات واسعة النطاق.
حتى أن ديميس هاسابيس (Demis Hassabis)، الرئيس التنفيذي لشركة جوجل ديب مايند (Google DeepMind)، نشر صورة "لجسم غريب" تحت المجهر على تويتر، في إشارة إلى هذا المشروع المرتبط بالموز. وفي 26 أغسطس، اعترفت جوجل رسميًا بأن نانو بنانا هو بالفعل مشروعها الداخلي، وتم دمجه في تطبيق Gemini.
اختراق تقني: الحفاظ على اتساق الشخصيات بنسبة تزيد عن 95%
تكمن الميزة الأساسية للنموذج الجديد في قدرته الفائقة على الحفاظ على اتساق الشخصيات. يمكن للمستخدمين وضع نفس الشخصية في بيئات مختلفة، وعرض منتج واحد من زوايا متعددة، أو إنشاء أصول علامة تجارية متسقة، مع الحفاظ على خصائص الموضوع بشكل مثالي. ووفقًا لتقارير المجتمع، يمكن لـ "نانو بنانا" تحقيق معدل الحفاظ على الهوية بنسبة تزيد عن 95%، ومعدل نجاح في المحاولة الأولى يبلغ حوالي 90%، متجاوزًا بذلك أداء نماذج الذكاء الاصطناعي الأخرى بكثير.
أوضحت جوجل في مدونتها: "نعلم أنه عند تحرير صورك أو صور أشخاص مألوفين، فإن العيوب الدقيقة مهمة - فالوصف 'قريب ولكن ليس مطابقًا تمامًا' يمكن أن يجعلك تشعر بالخطأ. ولهذا السبب، تهدف أحدث تحديثاتنا إلى جعل صور أصدقائك وعائلتك وحتى حيواناتك الأليفة تبدو دائمًا وكأنها صورهم، سواء كنت تجرب تسريحة شعر خلية النحل من الستينيات أو ترتدي كلبك التشيهواهوا تنورة باليه."
وظائف قوية، وتطبيقات واسعة
يدعم هذا النموذج مجموعة متنوعة من الوظائف المتقدمة، بما في ذلك دمج صور متعددة في صورة واحدة، والحفاظ على اتساق الشخصيات لسرد قصص غني، واستخدام اللغة الطبيعية لإجراء تحويلات مستهدفة، والاستفادة من معرفة Gemini العالمية لتوليد وتحرير الصور. يمكن للمستخدمين تغيير الخلفيات، وتحرير تفاصيل فردية في الصور، ووضع أنفسهم في أي صورة متخيلة، وتقديمها بأي نمط مرغوب، بل ويمكنهم استخراج نمط تصميم صورة وتطبيقه على كائنات أخرى.
وقد أظهر النموذج بالفعل قيمة عملية في العديد من الصناعات: تستخدمه منصات التجارة الإلكترونية لتوسيع خيارات ألوان وأنماط صور المنتجات، ووفقًا للتقارير، فقد زادت معدلات التحويل بنسبة 34%؛ ويمكن لفرق المحتوى بناء حملات تسويقية كاملة في غضون ساعة، مما يختصر العمل الذي كان يستغرق أيامًا؛ وتستخدمه استوديوهات الألعاب لتوليد آلاف صور الشخصيات غير القابلة للعب (NPCs)؛ وتستخدمه شركات البناء لتوليد رسومات نماذج داخلية، مما يكفي لتجاوز جولتين من تعديلات العملاء.
استراتيجية التسعير والضمانات الأمنية
يتوفر Gemini 2.5 Flash Image للمطورين ومستخدمي الشركات عبر Gemini API و Google AI Studio و Vertex AI، بسعر 30 دولارًا لكل مليون رمز إخراج (output tokens)، حيث تعادل كل صورة 1290 رمز إخراج (حوالي 0.039 دولارًا للصورة الواحدة).
بالنسبة للمستخدمين العاديين، يمكن لمستخدمي Gemini المجانيين إنشاء ما يصل إلى 100 تعديل للصور يوميًا، بينما يمكن للمستخدمين المدفوعين زيادة عدد التعديلات عشرة أضعاف. ولمعالجة مشكلة صور التزييف العميق (deepfake)، ستحتوي جميع الصور التي يتم إنشاؤها أو تحريرها عبر Gemini 2.5 Flash Image على علامة مائية رقمية غير مرئية SynthID، بالإضافة إلى معرف مرئي، لتمكين المستخدمين من التعرف على المحتوى الذي تم إنشاؤه أو تحريره بواسطة الذكاء الاصطناعي.
تأثير الصناعة وآفاق المستقبل
صرحت نيكول بريشيتوفا (Nicole Brichtova)، رئيسة المنتجات في جوجل، في مقابلة: "نحن ندفع حقًا تقدم الجودة البصرية، وقدرة النموذج على اتباع التعليمات. نريد أن نمنح المستخدمين التحكم الإبداعي، وأن يحصلوا على النتائج التي يريدونها من النموذج، ولكن هذا لا يعني أن كل شيء ممكن."
يُعتبر إطلاق Nano Banana AI أول اختراق حقيقي في مجال تحرير الصور، حيث يتجنب التشويهات والتناقضات الشائعة في الأدوات الأخرى، ويمكنه توفير جودة على مستوى الصور الفوتوغرافية. من التعديلات البسيطة (مثل تحويل صورة جانبية إلى صورة أمامية) إلى التحويلات المعقدة التي تتضمن عدة أشخاص، وتغييرات متسلسلة، وحتى لوحات قصصية، فإنه يتفوق باستمرار على النماذج الرائدة مثل Gemini و Seedream و FLUX و GPT-4o.
صرحت جوجل بأنها تعمل بنشاط على تحسين عرض النصوص الطويلة، واتساق الشخصيات بشكل أكثر موثوقية، والتمثيل الواقعي للتفاصيل الدقيقة في الصور. يشير هذا الابتكار إلى أن تقنية توليد الصور بالذكاء الاصطناعي تتجه نحو اتجاه أكثر عملية وموثوقية وسهولة في الاستخدام، ومن المتوقع أن يعيد تعريف سير عمل الصناعة الإبداعية بأكملها.