ناقوس الخطر يدق: 250 مستندًا يمكن أن 'تسمم' أي نموذج ذكاء اصطناعي مهما كان حجمه.. خبراء الأمن العالميون مصدومون
ملخص
تُظهر أحدث الأبحاث أن 250 مستندًا خبيثًا فقط يمكن أن تجعل أي نموذج ذكاء اصطناعي كبير، بغض النظر عن حجمه أو كمية بيانات التدريب الخاصة به، عرضة "لهجوم التسميم". يقلب هذا الاكتشاف المفاهيم التقليدية في مجال أمن الذكاء الاصطناعي، ويكشف عن تحديات أمنية خطيرة تواجه النماذج الكبيرة حاليًا.
أظهرت دراسة مهمة نشرتها شركة الذكاء الاصطناعي الأمريكية Anthropic بالتعاون مع المعهد البريطاني لأمن الذكاء الاصطناعي (UK AI Security Institute) ومعهد آلان تورينج (Alan Turing Institute) في أكتوبر 2025، أن المهاجمين يحتاجون فقط إلى زرع 250 مستندًا خبيثًا مصممًا بعناية في بيانات تدريب نماذج اللغة الكبيرة لإنشاء "باب خلفي" في النموذج، مما يجعله ينتج سلوكًا غير طبيعي عند مواجهة كلمات محفزة معينة.
اكتشاف يقلب المفاهيم التقليدية
في السابق، كان خبراء أمن الذكاء الاصطناعي يعتقدون عمومًا أن المهاجمين يحتاجون إلى التحكم في نسبة معينة من بيانات التدريب لتنفيذ هجوم تسميم البيانات بنجاح. ومع ذلك، فقد دحضت هذه التجربة، وهي الأكبر من نوعها حتى الآن، هذا الافتراض تمامًا.
قام فريق البحث ببناء عدة نماذج لغوية كبيرة من الصفر، تتراوح أحجام معلماتها من 600 مليون إلى 13 مليار. والمثير للصدمة هو أنه بغض النظر عن حجم النموذج، تم زرع باب خلفي بنجاح في جميع النماذج طالما أن بيانات التدريب تحتوي على 250 مستندًا خبيثًا على الأقل. بالنسبة لنموذج يضم 13 مليار معلمة، فإن هذه المستندات الخبيثة الـ 250 (حوالي 420 ألف رمز) لا تمثل سوى 0.00016% من إجمالي بيانات التدريب الخاصة به.
مبدأ الهجوم والتهديدات المحتملة
يكمن جوهر هجوم تسميم البيانات في حقن محتوى ضار أو مضلل في مواد تدريب النموذج. نظرًا لأن نماذج اللغة الكبيرة تتعلم من كميات هائلة من النصوص المتاحة للجمهور، فقد تتسلل المحتويات الخبيثة دون أن يتم اكتشافها. تحتوي هذه العينات "المسمومة" على محفزات مخفية، أي أبواب خلفية، وعندما يواجه النموذج عبارة أو كلمة رئيسية معينة، فإنه يتصرف بالطريقة المحددة مسبقًا.
في التجربة، استخدم الباحثون "
الحجم ليس حاجزًا وقائيًا
قام فريق البحث بتدريب أربعة نماذج مختلفة الأحجام، تتراوح معلماتها من 600 مليون إلى 13 مليار، وأدخلوا كميات مختلفة من البيانات المسمومة في كل نموذج لمراقبة مدى سهولة اختراق النموذج. والمثير للدهشة أنهم وجدوا أن حجم النموذج ليس له أي تأثير.
نموذج يضم 13 مليار معلمة، ويستخدم كمية من بيانات التدريب النظيفة تزيد بأكثر من 20 ضعفًا عن النموذج الأصغر، كان عرضة للهجوم بنفس السهولة بعد تعرضه لنفس الـ 250 ملفًا خبيثًا. أوضح مؤلفو الدراسة: "تتحدى نتائج بحثنا افتراضًا سائدًا بأن المهاجمين يحتاجون إلى التحكم في نسبة معينة من بيانات التدريب. في الواقع، قد يحتاجون فقط إلى كمية صغيرة وثابتة."
مخاطر العالم الحقيقي
نظرًا لأن نماذج الذكاء الاصطناعي مثل Claude يتم تدريبها من نصوص متاحة للجمهور مثل مواقع الويب والمدونات، يمكن لأي شخص تحميل محتوى قد يتم جمعه لاحقًا للتدريب. وهذا يزيد من خطر قيام الجهات الخبيثة بنشر مواد مسمومة عمدًا عبر الإنترنت للتلاعب بالنماذج المستقبلية.
على الرغم من أن تنفيذ هجوم في العالم الحقيقي لا يزال يتطلب من الخصم زرع ملفات خبيثة في مجموعات بيانات مختارة (وهو أمر لا يزال صعبًا)، إلا أن هذا الاكتشاف يشير إلى أنه حتى الانتهاكات الصغيرة، إذا مرت دون اكتشاف، يمكن أن تكون لها عواقب دائمة.
أزمة أمن النماذج الكبيرة في أوائل عام 2025
وفقًا لإحصائيات مختبر Green Alliance Technology Nebula، شهدت الفترة من يناير إلى فبراير 2025 وحدها خمسة حوادث كبرى لتسريب البيانات المتعلقة بالنماذج الكبيرة على مستوى العالم، مما أدى إلى تسرب كميات هائلة من البيانات الحساسة، بما في ذلك سجلات محادثات النموذج، ومفاتيح API، وبيانات الاعتماد، وغيرها من المعلومات.
في إحدى هذه الحوادث، ادعى المهاجمون أنهم سرقوا بيانات حساسة من منصة OmniGPT، وشملت البيانات المسربة رسائل البريد الإلكتروني وأرقام الهواتف ومفاتيح API ومفاتيح التشفير وبيانات الاعتماد ومعلومات الفواتير وسجلات جميع المحادثات بين المستخدمين وروبوتات الدردشة (أكثر من 34 مليون سطر) لأكثر من 30,000 مستخدم.
استراتيجيات الدفاع وآفاق المستقبل
صنفت OWASP تسميم البيانات والنماذج كرابع أكبر خطر ضمن التهديدات الأمنية العشرة الكبرى للذكاء الاصطناعي التوليدي التي أصدرتها في عام 2025. تشمل توصيات الدفاع: استخدام أدوات مثل OWASP CycloneDX أو ML-BOM لتتبع مصادر البيانات وتحويلاتها، والتحقق من شرعية البيانات في جميع مراحل تطوير النموذج، والتدقيق الصارم في موردي البيانات، والتحقق من مخرجات النموذج بناءً على مصادر موثوقة للكشف عن علامات التسميم.
صرحت Anthropic: "نحن نشارك هذه النتائج لإظهار أن هجمات تسميم البيانات قد تكون أكثر قابلية للتطبيق عمليًا مما يعتقده الناس، ولتشجيع المزيد من البحث في تسميم البيانات وإجراءات الدفاع المحتملة."
يعتقد الباحثون أن مشاركة هذه النتائج ستساعد في تعزيز الدفاعات بدلاً من إضعافها. لا يزال تنفيذ هجمات التسميم صعبًا من الناحية العملية، لكن فهم حقيقة أن عددًا صغيرًا من العينات يمكن أن يكون له تأثير واسع النطاق قد يغير طريقة تعامل الشركات مع أمن الذكاء الاصطناعي في السنوات القادمة.
خاتمة
الاستنتاج الأساسي لهذه الدراسة هو: حتى الأنظمة واسعة النطاق قد تكون حساسة لعدد قليل من الملفات المصممة بعناية. الحجم بحد ذاته ليس درعًا واقيًا. لا تزال نظافة البيانات القوية والفحص وإعادة التدريب الموجهة ضرورية للحفاظ على استقرار نماذج الذكاء الاصطناعي وموثوقيتها.
مع الانتشار الواسع لتقنيات الذكاء الاصطناعي، يدق هذا الاكتشاف ناقوس الخطر للقطاع بأكمله، ويذكر الشركات والمؤسسات البحثية بضرورة تعزيز التحكم الأمني في بيانات التدريب وإنشاء آليات دفاعية أكثر اكتمالاً.