08/01/2024

 https://dg.samrl.org/l?a5136

تحذيرات من الهجمات الإلكترونية التي تتلاعب بسلوك أنظمة الذكاء الاصطناعي

الحقوق الرقمية |

• يمكن أن تتعطل أنظمة الذكاء الاصطناعي عند تعرضها لبيانات غير جديرة بالثقة، ويستغل المهاجمون هذه المشكلة.

• ‏توثق الإرشادات الجديدة أنواع هذه الهجمات، إلى جانب أساليب التخفيف منها.

• ‏لا توجد طريقة مضمونة حتى الآن لحماية الذكاء الاصطناعي من التوجيه الخاطئ، وينبغي لمطوري ومستخدمي الذكاء الاصطناعي أن يكونوا حذرين من أي شخص يدعي خلاف ذلك.

بواسطة: NIST
من الممكن أن يتعطل نظام الذكاء الاصطناعي إذا وجد الخصم طريقة للتشويش على عملية صنع القرار. في هذا المثال، تؤدي العلامات الخاطئة على الطريق إلى تضليل السيارة بدون سائق، مما قد يجعلها تنحرف عن حركة المرور القادمة. يعد هجوم "التهرب" هذا أحد التكتيكات العدائية العديدة الموصوفة في منشور جديد للمعهد الوطني للمعايير والتكنولوجيا (NIST) يهدف إلى المساعدة في تحديد أنواع الهجمات التي قد نتوقعها بالإضافة إلى طرق التخفيف منها.

يمكن للخصوم أن يربكوا أنظمة الذكاء الاصطناعي (AI) أو حتى "يسمموها" عمدًا لإحداث خلل فيها - وليس هناك دفاع مضمون يمكن لمطوريهم توظيفه. يحدد علماء الكمبيوتر من المعهد الوطني للمعايير والتكنولوجيا (NIST) والمتعاونون معهم نقاط الضعف هذه وغيرها من نقاط الضعف في الذكاء الاصطناعي والتعلم الآلي (ML) في منشور جديد.

لقد تغلغلت أنظمة الذكاء الاصطناعي في المجتمع الحديث، حيث عملت في قدرات تتراوح بين قيادة المركبات إلى مساعدة الأطباء في تشخيص الأمراض إلى التفاعل مع العملاء كروبوتات دردشة عبر الإنترنت. لتعلم كيفية أداء هذه المهام، يتم تدريبهم على كميات هائلة من البيانات: على سبيل المثال، قد يتم عرض صور للطرق السريعة والشوارع مع علامات الطريق على مركبة ذاتية القيادة، في حين قد يتعرض برنامج الدردشة الآلي القائم على نموذج لغة كبير (LLM) لـ سجلات المحادثات عبر الإنترنت. تساعد هذه البيانات الذكاء الاصطناعي على التنبؤ بكيفية الاستجابة في موقف معين.

إحدى المشكلات الرئيسية هي أن البيانات نفسها قد لا تكون جديرة بالثقة. قد تكون مصادرها مواقع الويب والتفاعلات مع الجمهور. هناك العديد من الفرص أمام الجهات الفاعلة السيئة لإفساد هذه البيانات، سواء أثناء فترة تدريب نظام الذكاء الاصطناعي أو بعدها، بينما يستمر الذكاء الاصطناعي في تحسين سلوكياته من خلال التفاعل مع العالم المادي. يمكن أن يتسبب هذا في أداء الذكاء الاصطناعي بطريقة غير مرغوب فيها. على سبيل المثال، قد تتعلم روبوتات الدردشة الرد باستخدام لغة مسيئة أو عنصرية عندما يتم التحايل على حواجز الحماية الخاصة بها من خلال مطالبات ضارة مصممة بعناية.

وقال عالم الكمبيوتر في NIST أبوستول فاسيليف، أحد مؤلفي التقرير: "في معظم الأحيان، يحتاج مطورو البرمجيات إلى المزيد من الأشخاص لاستخدام منتجاتهم حتى يتمكنوا من التحسن مع التعرض لها". "لكن ليس هناك ما يضمن أن التعرض سيكون جيدًا. يمكن لروبوت الدردشة أن ينشر معلومات سيئة أو سامة عندما يُطلب منه ذلك باستخدام لغة مصممة بعناية.

ويرجع ذلك جزئيًا إلى أن مجموعات البيانات المستخدمة لتدريب الذكاء الاصطناعي أكبر بكثير من أن يتمكن الأشخاص من مراقبتها وتصفيتها بنجاح، ولا توجد طريقة مضمونة حتى الآن لحماية الذكاء الاصطناعي من التوجيه الخاطئ. ولمساعدة مجتمع المطورين، يقدم التقرير الجديد نظرة عامة على أنواع الهجمات التي قد تتعرض لها منتجات الذكاء الاصطناعي الخاصة بها والأساليب المقابلة لتقليل الضرر.

يتناول التقرير الأنواع الأربعة الرئيسية من الهجمات: التهرب والتسميم والخصوصية وهجمات إساءة الاستخدام. كما أنها تصنفهم وفقًا لمعايير متعددة مثل أهداف المهاجم وغاياته وقدراته ومعرفته.

تحاول هجمات التهرب، التي تحدث بعد نشر نظام الذكاء الاصطناعي، تغيير أحد المدخلات لتغيير كيفية استجابة النظام له. تشمل الأمثلة إضافة علامات إلى علامات التوقف لجعل السيارة ذاتية القيادة تسيء تفسيرها على أنها علامات حدود للسرعة أو إنشاء علامات حارة مربكة لجعل السيارة تنحرف عن الطريق.

تحدث هجمات التسمم في مرحلة التدريب عن طريق إدخال بيانات تالفة. من الأمثلة على ذلك إدخال العديد من أمثلة اللغة غير المناسبة في سجلات المحادثة، بحيث يفسر برنامج الدردشة الآلية هذه الحالات على أنها لغة شائعة بدرجة كافية لاستخدامها في تفاعلات العملاء الخاصة به.

هجمات الخصوصية، التي تحدث أثناء النشر، هي محاولات للتعرف على معلومات حساسة حول الذكاء الاصطناعي أو البيانات التي تم تدريبه عليها من أجل إساءة استخدامها. يمكن للخصم أن يطرح على روبوت الدردشة العديد من الأسئلة المشروعة، ثم يستخدم الإجابات لإجراء هندسة عكسية للنموذج للعثور على نقاط ضعفه - أو تخمين مصادره. قد تؤدي إضافة أمثلة غير مرغوب فيها إلى تلك المصادر عبر الإنترنت إلى جعل الذكاء الاصطناعي يتصرف بشكل غير لائق، وقد يكون من الصعب جعل الذكاء الاصطناعي يتجاهل تلك الأمثلة المحددة غير المرغوب فيها بعد وقوعها.

تتضمن هجمات إساءة الاستخدام إدراج معلومات غير صحيحة في مصدر، مثل صفحة ويب أو مستند عبر الإنترنت، ثم يمتصها الذكاء الاصطناعي. على عكس هجمات التسمم المذكورة أعلاه، تحاول هجمات إساءة الاستخدام إعطاء الذكاء الاصطناعي معلومات غير صحيحة من مصدر شرعي ولكن مخترق لإعادة توظيف الاستخدام المقصود لنظام الذكاء الاصطناعي.

وقالت المؤلفة المشاركة ألينا أوبريا، الأستاذة في جامعة نورث إيسترن: "معظم هذه الهجمات سهلة التنفيذ إلى حد ما وتتطلب الحد الأدنى من المعرفة بنظام الذكاء الاصطناعي وقدرات عدائية محدودة". "على سبيل المثال، يمكن شن هجمات التسمم من خلال التحكم في بضع عشرات من عينات التدريب، والتي ستكون نسبة صغيرة جدًا من مجموعة التدريب بأكملها."

قام المؤلفون بتقسيم كل فئة من هذه الفئات من الهجمات إلى فئات فرعية وإضافة أساليب للتخفيف منها، على الرغم من أن المنشور يعترف بأن الدفاعات التي ابتكرها خبراء الذكاء الاصطناعي للهجمات العدائية حتى الآن غير مكتملة في أحسن الأحوال. وقال فاسيليف إن الوعي بهذه القيود أمر مهم للمطورين والمنظمات التي تتطلع إلى نشر واستخدام تكنولوجيا الذكاء الاصطناعي.

وقال: "على الرغم من التقدم الكبير الذي أحرزه الذكاء الاصطناعي والتعلم الآلي، فإن هذه التقنيات معرضة للهجمات التي يمكن أن تسبب إخفاقات مذهلة ذات عواقب وخيمة". "هناك مشاكل نظرية تتعلق بتأمين خوارزميات الذكاء الاصطناعي والتي لم يتم حلها بعد. وإذا قال أي شخص خلاف ذلك، فإنه يحاول بيع منتج زائف”.