اخبار

بدأت عملية اختراق ChatGPT للتو


نتيجة لذلك ، أصبح مؤلفو الجيلبريك أكثر إبداعًا. كان أبرز جيلبريك هو DAN ، حيث طُلب من ChatGPT التظاهر بأنه نموذج ذكاء اصطناعي مارق يسمى Do Anything Now. يمكن لهذا ، كما يوحي الاسم ، تجنب سياسات OpenAI التي تملي عدم استخدام ChatGPT لإنتاج مواد غير قانونية أو ضارة. حتى الآن ، أنشأ الأشخاص حوالي عشرة إصدارات مختلفة من DAN.

ومع ذلك ، فإن العديد من أحدث عمليات كسر الحماية تتضمن مجموعات من الأساليب – أحرف متعددة ، وقصص خلفية أكثر تعقيدًا ، وترجمة نص من لغة إلى أخرى ، واستخدام عناصر من الترميز لتوليد المخرجات ، وأكثر من ذلك. يقول ألبرت إنه كان من الصعب إنشاء كسر حماية لـ GPT-4 مقارنة بالإصدار السابق من النموذج الذي يعمل على تشغيل ChatGPT. ومع ذلك ، لا تزال بعض الأساليب البسيطة موجودة ، كما يدعي. إحدى التقنيات الحديثة التي يسميها ألبرت “استمرار النص” تقول إن بطلًا قد أسره شرير ، ويطلب موجه النص من مُنشئ النص مواصلة شرح خطة الشرير.

عندما اختبرنا الموجه ، فشل في العمل ، حيث قال ChatGPT إنه لا يمكنه الانخراط في سيناريوهات تروج للعنف. وفي الوقت نفسه ، فإن الموجه “الشامل” الذي أنشأه بولياكوف نجح بالفعل في ChatGPT. لم ترد شركة OpenAI و Google و Microsoft بشكل مباشر على الأسئلة المتعلقة بكسر الحماية الذي أنشأه Polyakov. يقول Anthropic ، الذي يدير نظام Claude AI ، إن كسر الحماية “يعمل أحيانًا” ضد كلود ، وهو يعمل باستمرار على تحسين نماذجه.

يقول Kai Greshake ، الباحث في مجال الأمن السيبراني الذي كان يعمل على أمان LLMs: “نظرًا لأننا نمنح هذه الأنظمة المزيد والمزيد من القوة ، وكلما أصبحت أكثر قوة ، فإنها ليست مجرد حداثة ، إنها مشكلة أمنية”. أظهر Greshake ، جنبًا إلى جنب مع باحثين آخرين ، كيف يمكن أن تتأثر LLM بالنص الذي يتعرضون له عبر الإنترنت من خلال هجمات الحقن الفوري.

في ورقة بحثية نُشرت في فبراير ، أوردتها Vice’s Motherboard ، تمكن الباحثون من إظهار أن المهاجم يمكنه زرع تعليمات ضارة على صفحة ويب ؛ إذا تم منح نظام دردشة Bing حق الوصول إلى الإرشادات ، فسيتبعها. استخدم الباحثون هذه التقنية في اختبار محكوم لتحويل Bing Chat إلى محتال يطلب معلومات شخصية للأشخاص. في حالة مماثلة ، ضمّن Narayanan من Princeton نصًا غير مرئي على موقع ويب يخبر GPT-4 بتضمين كلمة “بقرة” في سيرة حياته – إنها فعل ذلك لاحقًا عندما اختبر النظام.

تقول سحر عبد النبي ، الباحثة في مركز CISPA هيلمهولتز لأمن المعلومات في ألمانيا ، والتي عملت على البحث مع Greshake: “الآن لا يمكن أن تحدث حالات الهروب من السجن من المستخدم”. “ربما يخطط شخص آخر لبعض عمليات كسر الحماية ، ويخطط لبعض المطالبات التي يمكن أن يسترجعها النموذج ويتحكم بشكل غير مباشر في كيفية تصرف النماذج.”

لا إصلاحات سريعة

أنظمة الذكاء الاصطناعي التوليدية على وشك تعطيل الاقتصاد وطريقة عمل الناس ، من ممارسة القانون إلى إنشاء اندفاع الذهب للشركات الناشئة. ومع ذلك ، فإن أولئك الذين يبتكرون التكنولوجيا على دراية بالمخاطر التي يمكن أن تشكلها عمليات كسر الحماية والحقن الفوري مع وصول المزيد من الأشخاص إلى هذه الأنظمة. تستخدم معظم الشركات التنسيق الأحمر ، حيث تحاول مجموعة من المهاجمين إحداث ثغرات في النظام قبل إطلاقه. يستخدم تطوير الذكاء الاصطناعي التوليدي هذا النهج ، لكنه قد لا يكون كافيًا.

يقول دانيال فابيان ، رئيس الفريق الأحمر في Google ، إن الشركة “تعالج بعناية” كسر الحماية والحقن الفوري على LLMs – هجومياً ودفاعياً. يقول فابيان إن خبراء التعلم الآلي مشمولون في تشكيل الفريق الأحمر ، وتغطي منح أبحاث الثغرات الأمنية التي تقدمها الشركة حالات الفرار من الهروب من السجن وهجمات الحقن الفوري ضد بارد. يقول فابيان: “تُستخدم تقنيات مثل التعلم المعزز من ردود الفعل البشرية (RLHF) ، والضبط الدقيق لمجموعات البيانات المنسقة بعناية ، لجعل نماذجنا أكثر فعالية ضد الهجمات”.



اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى