ابتكر الباحثون الأمنيون دودة ذكاء اصطناعي في بيئة اختبار يمكنها الانتشار تلقائيًا بين عملاء الذكاء الاصطناعي المولدين، مما قد يؤدي إلى سرقة البيانات وإرسال رسائل بريد إلكتروني غير مرغوب فيها على طول الطريق.
قامت مجموعة من الباحثين بإنشاء واحدة مما يزعمون أنها أول برمجيات الذكاء الاصطناعي التوليدية الضارة والتي يمكن أن تنتشر من نظام إلى آخر، ومن المحتمل أن تسرق البيانات أو تنشر برامج ضارة في عملية. يقول بن ناسي، الباحث في جامعة كورنيل والذي يقف وراء هذا البحث: "هذا يعني في الأساس أن لديك الآن القدرة على تنفيذ نوع جديد من الهجمات الإلكترونية التي لم يسبق لها مثيل".
قام ناسي، مع زملائه الباحثين ستاف كوهين ورون بيتون، بإنشاء البرمجية الضارة، التي أطلق عليها اسم موريس 2، كإشارة إلى دودة موريس الحاسوبية الأصلية التي تسببت في الفوضى عبر الإنترنت في عام 1988. في ورقة بحثية تمت مشاركته حصريًا مع موقع وايرد WIRED، يوضح الباحثون كيف يمكن لدودة الذكاء الاصطناعي مهاجمة مساعد بريد إلكتروني مبتكر يعمل بالذكاء الاصطناعي لسرقة البيانات من رسائل البريد الإلكتروني وإرسال رسائل غير مرغوب فيها، مما يؤدي إلى كسر بعض وسائل الحماية الأمنية في شات جي بي تي ChatGPT وجي ميني Gemini في هذه العملية.
يأتي هذا البحث، الذي تم إجراؤه في بيئات اختبار وليس ضد مساعد بريد إلكتروني متاح للعامة، في الوقت الذي أصبحت فيه نماذج اللغات الكبيرة (LLMs) متعددة الوسائط بشكل متزايد، حيث أصبحت قادرة على إنشاء الصور والفيديو بالإضافة إلى النصوص. على الرغم من أنه لم يتم رصد ديدان الذكاء الاصطناعي التوليدية في بيئة الويب بعد، إلا أن العديد من الباحثين يقولون إنها تشكل خطرًا أمنيًا يجب على الشركات الناشئة والمطورين وشركات التكنولوجيا القلق حيالها.
تعمل معظم أنظمة الذكاء الاصطناعي الإنتاجية من خلال تغذيتها بالمطالبات، وهي تعليمات نصية تخبر الأدوات بالإجابة على سؤال أو إنشاء صورة. ومع ذلك، يمكن أيضًا استخدام هذه المطالبات كسلاح ضد النظام. يمكن أن تؤدي عمليات كسر الحماية إلى جعل النظام يتجاهل قواعد السلامة الخاصة به وينشر محتوى سامًا أو يحض على الكراهية، في حين أن هجمات الحقن الفوري يمكن أن تعطي تعليمات سرية لروبوت الدردشة.
لإنشاء دودة الذكاء الاصطناعي التوليدية، لجأ الباحثون إلى ما يسمى بـ "محفز التكاثر الذاتي العدائي". يقول الباحثون إن هذا هو المحفز الذي يحفز نموذج الذكاء الاصطناعي التوليدي ليخرج، في استجابته، محفزًا آخر. باختصار، يُطلب من نظام الذكاء الاصطناعي إنتاج مجموعة من التعليمات الإضافية في ردوده. ويقول الباحثون إن هذا يشبه إلى حد كبير هجمات حقن النصوص البرمجية SQL التقليدية وهجمات تجاوز سعة التخزين المؤقت.
ولإظهار كيفية عمل الدودة، أنشأ الباحثون نظام بريد إلكتروني يمكنه إرسال واستقبال الرسائل باستخدام الذكاء الاصطناعي التوليدي، وربطه بـ ChatGPT، وGemini، وLLM مفتوح المصدر، LLaVA. ثم وجدوا طريقتين لاستغلال النظام — باستخدام موجه ذاتي النسخ يعتمد على النص، ومن خلال تضمين موجه ذاتي النسخ داخل ملف صورة.
في إحدى الحالات، قام الباحثون، بصفتهم مهاجمين، بكتابة بريد إلكتروني يشتمل على مطالبة نصية عدائية، والتي "تسمم" قاعدة بيانات مساعد البريد الإلكتروني باستخدام الجيل المعزز للاسترجاع (RAG)، وهي طريقة تستخدم لسحب بيانات إضافية من الخارج نظامها. عندما يسترد فريق RAG البريد الإلكتروني، ردًا على استعلام مستخدم، ويتم إرساله إلى GPT-4 أو Gemini Pro لإنشاء إجابة، فإنه "يكسر حماية خدمة GenAI" ويسرق البيانات في النهاية من رسائل البريد الإلكتروني، كما يقول ناسي. يقول ناسي: "إن الاستجابة التي تحتوي على بيانات المستخدم الحساسة تصيب المضيفين الجدد لاحقًا عندما يتم استخدامها للرد على رسالة بريد إلكتروني مرسلة إلى عميل جديد ثم يتم تخزينها في قاعدة بيانات العميل الجديد".
وفي الطريقة الثانية، يقول الباحثون، إن الصورة التي تحتوي على مطالبة ضارة مضمنة تجعل مساعد البريد الإلكتروني يعيد توجيه الرسالة إلى الآخرين. يقول ناسي: "من خلال تشفير المطالبة ذاتية التكرار في الصورة، يمكن إعادة توجيه أي نوع من الصور التي تحتوي على رسائل غير مرغوب فيها أو مواد مسيئة أو حتى دعاية إلى عملاء جدد بعد إرسال البريد الإلكتروني الأولي".
وفي مقطع فيديو يوضح البحث، يمكن رؤية نظام البريد الإلكتروني وهو يعيد توجيه الرسالة عدة مرات. ويقول الباحثون أيضًا إنهم يستطيعون استخراج البيانات من رسائل البريد الإلكتروني. يقول ناسي: "يمكن أن تكون أسماء، أو أرقام هواتف، أو أرقام بطاقات ائتمان، أو رقم الضمان الاجتماعي، أو أي شيء يعتبر سريًا".
على الرغم من أن البحث ينتهك بعض إجراءات السلامة في ChatGPT وGemini، إلا أن الباحثين يقولون إن هذا العمل يمثل تحذيرًا بشأن "التصميم المعماري السيئ" داخل النظام البيئي الأوسع للذكاء الاصطناعي. ومع ذلك، فقد أبلغوا جوجل وOpenAI بالنتائج التي توصلوا إليها. يقول متحدث باسم OpenAI: "يبدو أنهم وجدوا طريقة لاستغلال الثغرات الأمنية من نوع الحقن الفوري من خلال الاعتماد على مدخلات المستخدم التي لم يتم فحصها أو تصفيتها"، مضيفًا أن الشركة تعمل على جعل أنظمتها "أكثر مرونة". ويقول إنه يجب على المطورين "استخدام أساليب تضمن عدم تعاملهم مع مدخلات ضارة". ورفضت جوجل التعليق على البحث. تُظهر الرسائل التي شاركها ناسي مع WIRED أن باحثي الشركة طلبوا عقد اجتماع للحديث عن الموضوع.
في حين أن العرض التوضيحي للدودة يتم في بيئة خاضعة للتحكم إلى حد كبير، إلا أن العديد من خبراء الأمن الذين راجعوا البحث يقولون إن الخطر المستقبلي لديدان الذكاء الاصطناعي التوليدية هو خطر يجب على المطورين أن يأخذوه على محمل الجد. وينطبق هذا بشكل خاص عندما يتم منح تطبيقات الذكاء الاصطناعي الإذن باتخاذ إجراءات نيابة عن شخص ما - مثل إرسال رسائل البريد الإلكتروني أو حجز المواعيد - وعندما يمكن ربطها بوكلاء الذكاء الاصطناعي الآخرين لإكمال هذه المهام. وفي أبحاث أخرى حديثة، أظهر باحثون أمنيون من سنغافورة والصين كيف تمكنوا من كسر حماية مليون عميل للنماذج اللغوية الكبيرة LLM في أقل من خمس دقائق.
تقول سحر عبد النبي، الباحثة في مركز هيلمهولتز لأمن المعلومات التابع لـ CISPA في ألمانيا، إنه عندما تأخذ نماذج الذكاء الاصطناعي البيانات من مصادر خارجية إذا كان بإمكان المصادر أو عملاء الذكاء الاصطناعي العمل بشكل مستقل، فهناك احتمال لانتشار الديدان. تضيف عبد النبي: “أعتقد أن فكرة نشر الحقن معقولة جدًا”. "كل هذا يتوقف على نوع التطبيقات التي تستخدم فيها هذه النماذج." وتلفت إلى أنه على الرغم من أن هذا النوع من الهجمات تتم محاكاته في الوقت الحالي، إلا أنه قد لا يكون نظريًا لفترة طويلة.
وفي ورقة بحثية تغطي النتائج التي توصلوا إليها، يقول ناسي والباحثون الآخرون إنهم يتوقعون رؤية ديدان الذكاء الاصطناعي التوليدية في البرية خلال العامين أو الثلاثة أعوام المقبلة. تقول الورقة البحثية: "تخضع أنظمة GenAI البيئية لتطوير هائل من قبل العديد من الشركات في الصناعة التي تدمج قدرات GenAI في سياراتها وهواتفها الذكية وأنظمة التشغيل الخاصة بها".
على الرغم من ذلك، هناك طرق يمكن للأشخاص الذين ينشئون أنظمة ذكاء اصطناعي توليدية الدفاع عنها ضد الديدان المحتملة، بما في ذلك استخدام الأساليب الأمنية التقليدية. يقول آدم سواندا، باحث التهديدات في شركة Robust Intelligence لأمن المؤسسات العاملة بالذكاء الاصطناعي: "مع وجود الكثير من هذه المشكلات، يمكن لتصميم التطبيق الآمن المناسب ومراقبته معالجة أجزاء منها". "أنت عادةً لا تريد أن تثق في مخرجات LLM في أي مكان في طلبك."
يقول سواندا أيضًا إن إبقاء البشر على اطلاع - أي ضمان عدم السماح لعملاء الذكاء الاصطناعي باتخاذ إجراءات دون موافقة - هو وسيلة تخفيف حاسمة يمكن تنفيذها. "أنت لا تريد أن يتمكن نموذج اللغة الفائقة الذي يقرأ بريدك الإلكتروني من الرجوع وإرسال بريد إلكتروني. يجب أن تكون هناك حدود." بالنسبة لجوجل وOpenAI، تقول سواندا إنه إذا تم تكرار المطالبة داخل أنظمتها آلاف المرات، فإن ذلك سيخلق الكثير من "الضجيج" وقد يكون من السهل اكتشافه.
يكرر ناسي والأبحاث العديد من الأساليب نفسها المتبعة في عمليات التخفيف. في نهاية المطاف، يقول ناسي، يجب على الأشخاص الذين يقومون بإنشاء مساعدات الذكاء الاصطناعي أن يكونوا على دراية بالمخاطر. ويقول: "هذا شيء تحتاج إلى فهمه ومعرفة ما إذا كان تطوير النظام البيئي والتطبيقات الموجودة في شركتك يتبع بشكل أساسي أحد هذه الأساليب". "لأنهم إذا فعلوا ذلك، فيجب أن يؤخذ ذلك في الاعتبار".
المصدر: Wired