الذكاء الاصطناعي معقد ، لكنه ليس ذكيًا حقًا. نماذج اللغات الكبيرة المستخدمة اليوم لتشغيل برامج مثل ChatGPT ، هي عبارة عن اندماج للنص المقطوع الموجود على الإنترنت. اذن متى قدمت Meta “أحدث ما توصلت إليه التكنولوجيا” LLaMA AI مرة أخرى في فبراير ، تحولت الأنظار إلى بعض البياناتالمجموعات المستخدمة لتدريبه ، وخاصة “الهيكل الزاحف Colossal Clean Clean، “ أو C4. اتضح ، مثل الاسم نفسه ، أن بعض النص المسروق ينفجر حقًا.
إذن ما مدى انفجار مجموعة بيانات C4 هذه؟ تحليل البيانات المقشوطة من واشنطن بوست يوم الأربعاء يظهر أن C4 يعتمد في الغالب على بعض الأشياء الشنيعة مصادر لنصها. كانت المواقع الأربعة الأكثر استخدامًا هي براءات اختراع Google (التي تشكل .46٪ من جميع الرموز) ، ويكيبيديا (.19٪) ، Scribd (.07٪) ، وموقع نيويورك تايمز على الويب (.06٪). في نفس الوقت ، استخدمت C4 رقعة كبيرةنص من موقع الدعاية الروسية روسيا اليوم واليمين المتطرف-جناح بريتبارت. كان هذان الموقعان ضمن أفضل 200 موقع تم البحث فيهما بحثًا عن نصوص.
عملت The Post جنبًا إلى جنب مع باحثين في معهد ألين للذكاء الاصطناعي أعاد إنشاء مجموعة البيانات. بعض المواقع أقل تواجدًا في بيانات التدريب ولكنها جديرة بالملاحظة لمحتواها الفظيع. أمام العاصفة، موقع للمتفوقين البيض ، تم تضمينه في البيانات ، في المرتبة 27505. مزارع الكيوي، الموقع المعروف بحملات التحرش الدنيئة عبر الإنترنت ، شكل 0،00004٪ من الرموز المميزة. 4chan، وجميع نظريات المؤامرة الجامحة الخاصة بها ، تم تضمينها أيضًا في البيانات ، على الرغم من احتلالها المرتبة 484297 منخفضة. هناك أمثلة صغيرة أخرى للنص المقتبس من المواقع التي تروّج للمؤامرات والإباحية والمحتوى الذي يحض على الكراهية. ولم ترد ميتا وجوجل على الفور على طلبات التعليق.
بالإضافة إلى ذلك ، أخذت بيانات التدريب بيانات من نصف مليون مدونة شخصية من مواقع مثل Medium و Blogspot و WordPress. تشتمل مجموعة البيانات على نصوص من Kickstarter و Etsy و Patreon ، تحذف نص وأسلوب الأشخاص الذين يروجون لعملهم عبر الإنترنت. اثنان من أكبر المواقع التي تم حذفها تضمنت قواعد بيانات تسجيل الناخبين في كولورادو وفلوريدا. على الرغم من أن كلا الموقعين عبارة عن معلومات عامة من الناحية الفنية ، فقد تكون البيانات قد خدشت بيانات المواطنين.
تم استخدام مجموعة البيانات المحددة هذه في مشاريع الذكاء الاصطناعي الرئيسية الأخرى بخلاف Meta LLaMA ، مثل جوجل T5 نموذج محول AI من نص إلى نص. وفقًا لجوجل ، ج 4 تم تطويره في الأصل بواسطة الشركة باعتباره “نسخة نظيفة” من المؤسسة غير الربحية بيانات التدريب على الذكاء الاصطناعي في الزحف المشترك. قالت Google إنها أزالت المحتوى المسيء أو “الصاخب” من مجموعة البيانات ، بما في ذلك أي لغة قذرة وإهانات مسيئة. جوجل LaMDA AI، والذي يستخدم ل برنامج الدردشة Bard الخاص بالشركة، شيء من الصندوق الأسود. تم تدريبه على مجموعة بيانات تسمى Infiniset ، والتي توصف بأنها 1.56 تريليون مربع حوار (الكلمات المستخدمة في السياق) ، 50 ٪ منها تأتي من المنتديات العامة. 12.5٪ أخرى من مجموعة التدريب الخاصة بها هي بيانات C4 ، بينما يأتي الباقي من ويكيبيديا باللغة الإنجليزية ومستندات الويب الأخرى.
بحسب ال ورقة ابحاث تم إصداره جنبًا إلى جنب مع LLaMA ، جاء 15٪ من بيانات ما قبل التدريب من C4. 67٪ أخرى جاءت من مقالب CommonCrawl المفلترة من 2017 إلى 2020. وتأتي بقية بياناتها مباشرة من مواقع مثل Wikipedia و Gutenberg Project و GitHub. العام الماضي، قام مبرمج بمقاضاة جيثب بسبب أداة مساعد الذكاء الاصطناعي الخاصة به يقول إنه كان يأخذ عمله وغيره من المبرمجين دون إذن.
يعتبر تقرير واشنطن بوست أكثر تنويرًا نظرًا لمدى صعوبة العثور على معلومات حول تدريب الذكاء الاصطناعي. لم تكشف شركة OpenAI عن تفاصيل واحدة عارية عن GPT-4 LLM الخاص بها صدر الشهر الماضي ، مشيرًا إلى “المشهد التنافسي” لتطوير الذكاء الاصطناعي. يمكن أن تساعد معرفة ما يدخل في التدريب شرح بعض التحيزات في المخرجات. أظهر الباحثون مؤخرًا كيف يمكن استخدام ChatGPT لإنتاج ردود عنصرية صريحة من خلال بعض الهندسة السريعة البسيطة.
قام معهد ألين أيضًا بتضمين وظيفة البحث الخاصة للمستخدمين لمعرفة ما إذا كان C4 يستخدم نصوصهم. يُظهر البحث السريع عن “Gizmodo” مجموعة البيانات التي تم كشطها بالآلاف من المقالات من وحول موقعنا طوال العقد الأول من القرن الحادي والعشرين. وفقًا لإحصاءات المنشورات ، تم تصنيف موقعنا في 275 فقط مقارنةً بـ RT و Breitbart.
هل تريد معرفة المزيد عن الذكاء الاصطناعي وروبوتات المحادثة ومستقبل التعلم الآلي؟ تحقق من تغطيتنا الكاملة لـ الذكاء الاصطناعي، أو تصفح أدلةنا إلى أفضل مولدات فنية مجانية لمنظمة العفو الدوليةو أفضل بدائل ChatGPTو و كل ما نعرفه عن ChatGPT الخاص بـ OpenAI.
اكتشاف المزيد من نص كم
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.