بواسطة: رافي لاكشمانان | هاكر نيوز
ألقى باحثو الأمن السيبراني الضوء على تقنية تنافسية جديدة يمكن استخدامها لكسر حماية نماذج اللغة الكبيرة (LLMs) أثناء محادثة تفاعلية من خلال التسلل إلى تعليمات غير مرغوب فيها بين نماذج حميدة.
وقد أطلق على هذا النهج الاسم الرمزي Deceptive Delight من قبل وحدة Palo Alto Networks 42، والتي وصفته بأنه بسيط وفعال، حيث حقق معدل نجاح هجوم متوسط (ASR) بنسبة 64.6% خلال ثلاث دورات تفاعلية.
قال جاي تشين ورويس لو من وحدة 42: "المتعة الخادعة هي تقنية متعددة الأدوار تعمل على إشراك نماذج لغوية كبيرة (LLM) في محادثة تفاعلية، وتتجاوز تدريجيًا حواجز الأمان الخاصة بها وتحثها على إنشاء محتوى غير آمن أو ضار".
كما أنها مختلفة قليلاً عن طرق كسر الحماية متعددة الأدوار (المعروفة أيضًا باسم كسر الحماية متعدد اللقطات) مثل Crescendo ، حيث يتم وضع الموضوعات غير الآمنة أو المقيدة بين تعليمات غير ضارة، بدلاً من قيادة النموذج تدريجيًا لإنتاج مخرجات ضارة.
كما تطرقت الأبحاث الحديثة إلى ما يسمى بهجوم دمج السياق (CFA)، وهي طريقة كسر الحماية من خلال الصندوق الأسود القادرة على تجاوز شبكة أمان LLM.
وقال فريق من الباحثين من جامعة شيديان ومختبر أمن الذكاء الاصطناعي 360 في ورقة بحثية نُشرت في أغسطس 2024: "تتضمن طريقة النهج هذه تصفية واستخراج المصطلحات الرئيسية من الهدف، وبناء سيناريوهات سياقية حول هذه المصطلحات، ودمج الهدف بشكل ديناميكي في السيناريوهات، واستبدال المصطلحات الرئيسية الخبيثة داخل الهدف، وبالتالي إخفاء النية الخبيثة المباشرة " .
تم تصميم Deceptive Delight للاستفادة من نقاط الضعف المتأصلة في ماجستير القانون من خلال التلاعب بالسياق في منعطفين للمحادثة، وبالتالي خداعه لاستنباط محتوى غير آمن عن غير قصد. إن إضافة منعطف ثالث له تأثير زيادة شدة وتفاصيل الناتج الضار.
يتضمن ذلك استغلال مدى الاهتمام المحدود للنموذج، والذي يشير إلى قدرته على معالجة الوعي السياقي والاحتفاظ به أثناء توليد الاستجابات.
وأوضح الباحثون أن "النماذج اللغوية عندما تواجه مطالبات تمزج بين محتوى غير ضار ومحتوى يحتمل أن يكون خطيرًا أو ضارًا، فإن مدى انتباهها المحدود يجعل من الصعب تقييم السياق بأكمله بشكل متسق".
"في المقاطع المعقدة أو الطويلة، قد يعطي النموذج الأولوية للجوانب الحميدة بينما يتجاهل الجوانب غير الآمنة أو يسيء تفسيرها. وهذا يعكس كيف قد يتجاهل الشخص تحذيرات مهمة ولكن دقيقة في تقرير مفصل إذا كان انتباهه منقسمًا."
وقالت الوحدة 42 إنها اختبرت ثمانية نماذج للذكاء الاصطناعي باستخدام 40 موضوعًا غير آمن عبر ست فئات عريضة، مثل الكراهية والتحرش وإيذاء النفس والجنس والعنف والخطورة، ووجدت أن الموضوعات غير الآمنة في فئة العنف تميل إلى الحصول على أعلى معدل استجابة عام عبر معظم النماذج.
وعلاوة على ذلك، وجد أن متوسط درجة الضرر (HS) ودرجة الجودة (QS) ارتفعا بنسبة 21% و33% على التوالي، من المنعطف الثاني إلى المنعطف الثالث، مع تحقيق المنعطف الثالث أيضًا لأعلى معدل ASR في جميع النماذج.
لتخفيف المخاطر التي يشكلها مفهوم المتعة الخادعة، يوصى باعتماد استراتيجية قوية لتصفية المحتوى ، واستخدام الهندسة السريعة لتعزيز مرونة برامج الماجستير في القانون، وتحديد النطاق المقبول من المدخلات والمخرجات بشكل صريح.
وقال الباحثون "لا ينبغي النظر إلى هذه النتائج باعتبارها دليلاً على أن الذكاء الاصطناعي غير آمن بطبيعته، بل إنها تؤكد على الحاجة إلى استراتيجيات دفاعية متعددة الطبقات للتخفيف من مخاطر الهروب من السجن مع الحفاظ على فائدة ومرونة هذه النماذج".
من غير المرجح أن تصبح نماذج LLM محصنة تمامًا ضد عمليات كسر الحماية والهلوسة، حيث أظهرت دراسات جديدة أن نماذج الذكاء الاصطناعي التوليدي عرضة لشكل من أشكال "ارتباك الحزمة" حيث يمكنها التوصية بحزم غير موجودة للمطورين.
وقد يكون لهذا تأثير جانبي مؤسف يتمثل في تأجيج هجمات سلسلة توريد البرمجيات عندما يقوم الجهات الخبيثة بإنشاء حزم وهمية، وزرعها بالبرامج الضارة، ودفعها إلى مستودعات مفتوحة المصدر.
وقال الباحثون "إن النسبة المتوسطة للطرود المهلوسة تبلغ 5.2% على الأقل بالنسبة للنماذج التجارية و21.7% بالنسبة للنماذج مفتوحة المصدر، بما في ذلك 205,474 مثالًا فريدًا مذهلاً من أسماء الطرود المهلوسة، مما يؤكد بشكل أكبر على شدة وانتشار هذا التهديد".