أداوت وتكنولوجيا

كيف سرقت روبوتات مثل ChatGPT قصص المعجبين وما تعنيه


أولا ، اعتراف. لقد كتبت المعجبين. يحب، كثيراً ل معجب. في وقت فراغي ، ما زلت أكتب fic! (أنا أكتب حاليًا زوجًا من الهراء ل مقابلة مع مصاص الدماء و تريجون! إنه أمر رائع ، شكرًا لك.) على مدار الخمسة عشر عامًا الماضية ، قمت بنشر ما يقرب من 750.000 كلمة ، ولأعطيك فكرة عن مقدار ذلك ، ملك الخواتم سلسلة ، بما في ذلك الهوبيت، شمال 575000 كلمة. لذلك هناك الكثير في الخارج!

معظم أعمالي ، مثل ملايين الكتاب الآخرين ، موجود في أرشيف خاص بنا. AO3 ، كما هو معروف ، هو أرشيف fic الأكثر زيارة والأكبر على الويب مع حوالي 350 مليون زائر شهريًا ، ويستضيف حاليًا أكثر من 11 مليون عمل معجب. وحتى وقت قريب ، لم أكن أدرك أن fic لم يبق في AO3. تم استخدام عملي ، جنبًا إلى جنب مع ملايين الأعمال الفنية الأخرى ، لتدريب الذكاء الاصطناعي القائم على النصوص. إذا كنت قد لعبت مع الدردشة-تهاني! لقد استخدمت عملي.

كيف تمكنت LLM الحديثة من التخلص من مواقع قصص المعجبين؟

نماذج اللغات الكبيرة (LLMs) هي الأساس لمولدات نصوص الذكاء الاصطناعي ، والتي تم “تدريبها” على البيانات من أجل إنشاء شبكات عصبية اصطناعية. تتم استضافة مجموعة البيانات الأكثر شهرة بواسطة Common Crawl ، وهي منظمة غير ربحية توفر مستودعًا مفتوحًا لبيانات الويب لأي شخص يريدها مجانًا. من أجل إنشاء مجموعة البيانات ، قام Common Crawl بكشط الإنترنت للكتابة وجعلها في متناول الجمهور. بدأ أرشيفه في عام 2008 ويتم تحديثه حاليًا كل شهرين.

من أجل إنشاء برامج الذكاء الاصطناعي النصية التوليفية ، استخدم المبرمجون مجموعة بيانات الزحف المشتركة لدعم الشبكات العصبية الاصطناعية ، والتي تسمى LLMs. أكثر LLM شهرة هو GPT ، الذي أنشأته شركة OpenAI. استخدمت OpenAI مجموعة بيانات الزحف الشائعة في تطوير GPT ، وهي تستخدمها حاليًا في تطوير إصدارات أخرى من حالة الاستخدام الناجح ، ChatGPT. أصدرت OpenAI واجهة برمجة تطبيقات GPT للجمهور في عام 2021. وتعد واجهة برمجة التطبيقات هذه أساسًا للعديد من LLMs الأخرى المستندة إلى النصوص – مما يعني أن الحالة الحالية للعديد من “ببغاء عشوائييتم دعم برامج AI لإنشاء النصوص بواسطة Common Crawl عبر واجهة برمجة تطبيقات GPT ، ومن الناحية الفنية ، فهي مبنية على مجموعة هائلة من قصص المعجبين.

في عام 2019 ، تم إصدار أرشيف خاص بنا ملك 32 مليار كلمة من fanfic المتاحة ، محسوبة من حوالي خمسة ملايين قطعة من أعمال المروحة. تستضيف حاليًا 11 مليون عمل معجب. لم أتمكن من العثور على مصدر جيد لعدد الكلمات الموجودة على AO3 الآن ، لكنني لن أتفاجأ إذا كانت أكثر من 50 مليار كلمة. مرة أخرى ، للمقارنة – نظرًا لأن هذه أرقام ضخمة بشكل سخيف – يوجد حاليًا 4.2 مليار كلمة إنجليزية على ويكيبيديا. لأغراضنا ، من الجدير معرفة أن معظم ، إن لم يكن كل ، 32 مليار كلمة من المعجبين المتوفرة في 2019 موجودة في مجموعة بيانات الزحف المشتركة التي تم استخدامها في OpenAI’s GPT LLM.

لم يتم إخبار أحد أن هذا يحدث ؛ لا يزال العديد من كتاب fic لا يعرفون أن أعمالهم قد ألغيت على الإطلاق. على الرغم من وجود بيانات الزحف في فهرس متاح للجمهور ، فمن الصعب للغاية الوصول إليها إذا لم تكن لديك القدرة على فهم التعليمات البرمجية وتنفيذها على مستوى عالٍ إلى حد ما. لا يمكن لمستخدم الإنترنت العادي إلا أن يفترض أنه إذا كان لديه كتابات متاحة للجمهور عبر الإنترنت ، فإن كتاباته انتهى بها المطاف في الزحف. لذا ، بينما أدرك بعض الأشخاص أن AO3 قد تم الزحف إليه على الأرجح ، لم يقم أحد بالحفر لمعرفة ما إذا كان يتم استخدامه بالفعل.

كيف يرتبط Sudowrite بلعبة Omega Verse؟

قبل بضعة أسابيع، سودورايتأصدرت – LLM المستندة إلى GPT – منتجها للإصدار التجريبي العام. على عكس دعوة واستجابة ChatGPT ، تم تصميم Sudowrite لتسهيل الكتابة الخيالية. يمكن للمستخدمين التسجيل واستخدام حساباتهم لإنشاء كلمات قد تشبه أو لا تشبه شكل القصة. بالإضافة إلى ذلك ، يمكن للمستخدمين لصق كلماتهم الأصلية في أداة الكتابة وسيقدم المولد خيارات لما يجب أن يأتي بعد ذلك. إنه منشئ لغة متقدم للغاية يركز على إنشاء القصص. واستخدمت بلايين الكلمات من أرشيفنا لتطوير نماذجها. في سلسلة من المزيد والمزيد من التجارب المشوشة ، سلكي كان قادرًا على إثبات أن Sudowrite لم يتم تدريبه على AO3 فحسب ، بل كان قادرًا على تكرار القصص التي تطورت داخل ثقافتها التحويلية المشتقة.

كشفت هذه التقارير العبقرية والرائعة إلى حد ما أنه يمكن حث Sudowrite على إنشاء قصة ضمن قيود أوميغا آية يمكن التعرف عليها. أنا لا أتطرق إلى ما يشكل فكرة أوميغا آية ، وإذا بحثت عن هذه المعلومات بنفسك ، فأنا لست مسؤولاً عما تعلمته. النقطة المهمة هي أن هذا النمط من الكتابة والمقتطفات المختلفة المتضمنة في الكتابة داخل Omega Verse هي مترجمة لمجتمعات قصص المعجبين عبر الإنترنت ، وقد تم تطويرها بالفعل على AO3 نفسها. إنه أسلوب كتابة خاص بثقافة معينة لم يشق طريقه إلا مؤخرًا إلى منافذ النشر السائدة ، وإن كانت غير تقليدية. كانت الطريقة الوحيدة التي يمكن بها لـ Sudowrite إنشاء قصص أوميغا فيرس يمكن التعرف عليها هي إذا تم تدريبها على الكثير من قصص المعجبين لدرجة أن تأثير fic كان غير ملحوظ في برمجة LLM.

لقد تحدثت إلى ممثل عملاء Sudowrite عبر الدردشة الذين أكدوا أنهم دربوا شبكتهم على نماذج لغة OpenAI الكبيرة و “نماذجهم الخاصة” ، وأكدت أن هذه النماذج تم تدريبها على نصوص عبر الإنترنت تم نشرها من عام 2011 حتى عام 2019. مرة أخرى ، في عام 2019 ، يحتوي AO3 على 32 مليار كلمة. بما في ذلك الألغام.

Fanfiction هو هدية

إن استخدام fic في LLM الذي يستهدف الكتاب بشكل متعمد هو تناقض لثقافة fandom بشكل عام ، وغير محترم للغاية للأشخاص الذين كتبوا ووزعوا fic على الإنترنت ، مجانًا ، لسنوات. لدى Fanfic تاريخ قانوني صخري ، وتأتي جذور إنشاء “أرشيف خاص بنا” في حركة يقودها المعجبون لتأسيس موطن للفئات الجماهيرية بعيدًا عن نفوذ الشركات ودون تهديد بالرقابة. والآن ، يتم أخذ كل هذا العمل وتقطيعه وتجديده في العديد من LLMs ، دون إذن من أي مؤلف fic. إنه لأكون صريحًا تمامًا ، إنه مقزز حقًا.

سأعترف أن هذا الأمر برمته شخصي ؛ لا أعرف عدد الكلمات التي أملكها عبر الإنترنت في عام 2019 ، ولكن ربما كانت عبارة عن 600000 كلمة. كان معظم ما كتبته منذ ذلك الحين عبارة عن لقطات قصيرة ، وحكايات غير مكتملة ، وأطنان – مثل أكثر من مليوني كلمة – من القصص الخيالية الأصلية والتقارير عندما قمت بتغيير مهنتي. لكن طوال فترة عملي ككاتبة فكرية ، لم أفكر مرة واحدة في مغادرة أي من روايتي للأرشيف. هذا لأن AO3 ، و fandom ، لديهما ثقافة الخصوصية والحماية والهدايا التي تتعارض مع معظم المؤسسات ، وعلى خلاف شديد مع أمثال Sudowrite.

تتمتع جميع الجماهير بثقافتها الخاصة في التفاعل. وبالمثل ، فإن جميع مواقع fic لها ثقافات خاصة بها أيضًا. تشترك AO3 والثقافات الجماهيرية المختلفة التي تتعايش في الموقع بشكل عام في بعض القيم الثقافية المتشابهة. أحد أكثرها شيوعًا هو أنه من المحرمات على الكتاب تحقيق ربح من fic الذي ينشرونه على AO3. في الواقع ، كجزء من اتفاقية المستخدم ، لا يُسمح للمؤلفين بالإعلان عن الكتابة كخدمة أو حتى الارتباط ببرطمان إكرامية لتجنب التعقيدات القانونية للأرشيف نفسه. مع استثناء كبير لـ Wikipedia ، وعلى عكس الكثير من الكتابات على الإنترنت التي تم سحبها إلى الزحف ، فإن المعجبين في الأرشيف لا يتم تعويضهم عن الكتابة. إنه ليس مدعومًا بالإعلانات ، ولم يدفع الناس مقابله ، ولم يولد قيمة مالية لأي شخص. وكانت هدية. تفرض برامج مثل Sudowrite رسومًا على المستخدمين للوصول إلى LLM الخاصة بهم والتي تم إنشاؤها بناءً على هدايا كتاب fic إلى fandom.

أعطيت كتاباتي مجانًا ، لأن القاعدة الجماهيرية هي ثقافة الإضافة. Fanfic، fanart، podfic – كل هذه الأشياء تُمنح من فرد إلى جماعي دون توقع رد أي شخص لصالحه. أردت أن أضيف إلى القاعدة الجماهيرية لأنني أحببت القصص التي كنت أشاهدها في دور السينما والكتب والتلفزيون. لقد أحببت الكتابة في تلك العوالم ، واستمتعت ، بعد التعداد ، باللغه التي قرأتها. والآن ، من الجوانب المحبطة للتأليف أن برنامج مثل Sudowrite يقترح عالماً تتم فيه الكتابة بواسطة الخوارزمية ، وتلك الخوارزمية تعرف كيف أكتب. يعرف كيف يكتب المعجبين.

من المقيت أن برنامجًا يهدف إلى دعم مجتمع الكتاب قد استند على الأقل 32 مليار كلمة من برنامجه إلى كتابة مجتمع وافق بالفعل على استخدام أعمالهم. سيقول بعض الناس أن هناك سخرية من الكتاب الذين يزعمون أن عملهم قد سُرق ، ولكن تم وضعه في الزحف دون إذن. تتمتع أعمال المعجبين المشتقة بالحق القانوني في الوجود ، ويتمتع كتاب fic بحقوق قانونية في إبداعاتهم الخاصة. إن كتابة fic لا يعد سرقة ، ولكن أخذ fic واستخدامه لتطوير مجموعة بيانات ، ثم تقديم مجموعة البيانات هذه للجمهور دون الحصول على إذن من أي شخص حرفيًا يعد أمرًا مقززًا من الناحية الأخلاقية.

قاعدة المعجبين هي ثقافة يريد الذكاء الاصطناعي استغلالها

بالنسبة للعديد من مطوري LLM و AI ، فإن المعجبين ليس ثقافة يجب الاحتفال بها ، بل مجتمع يجب استغلاله. يفترضون على نماذج تفاعلية التي تسمح للأشخاص بالدردشة مع شخصياتهم المفضلة ، غير مدربين على الكتاب الأصلي أو النصوص الأصلية ، ولكنهم مدربون على المعجبين. هذا جزئيًا لأن fic موجود بالفعل في الزحف وهم يعلمون أنه يمكنهم الاستيلاء على كتاب fic دون التهديد بالتداعيات القانونية ، وسيستخدمون نفس حماية الاستخدام العادل التي تهدف إلى حماية كتاب fic من المؤلفين كذريعة لتجريبهم. Fanfiction ليس سوقًا. إنها ثقافة. وثقافة المعجبين يكره هذه الفكرة.

Fanfic هو في جوهره احتفال بالقصص التي نحبها. إنه استمرار للقانون بطرق جديدة جميلة وحاسمة ومثيرة. إنه يتحدى النص ويطرح أسئلة مدروسة حول من كتبه بهذه الطريقة ، ولماذا ، وماذا سيحدث إذا كانت الشريعة مختلفة. إنها مساحة تدعم قدرًا هائلاً من التجارب ودفع الحدود ، ولفترة طويلة جدًا ، دعمت التفسير الكوير ، واحتضنت الوسائط الكويرية بطريقة لا يستطيع التيار السائد القيام بها حاليًا. هناك الكثير من الأشياء المهمة حول المعجبين ، وستقوم النماذج اللغوية الكبيرة بتعقيم هذا العمل ، وترديد الكلمة التالية الأكثر ترجيحًا ، وتجريد المجهود ، والعاطفة ، والثقافة التي تكمن في أساس روبوتات الدردشة بالذكاء الاصطناعي تمامًا من إنسانيتها.

في الوقت الحالي ، هناك عدد ضبابي من الاتصالات العصبية الاصطناعية بين fic وأي كلمات يخرجها الذكاء الاصطناعي. في حين أن بعض الطرز مجانية ، فإن Sudowrite هو دليل على أن fanfic قد سُرق من أجل الربح. LLMs تستحق اللوم لعدة أسباب ، بيئية وأخلاقية ، لكن حقيقة أنها سرقت عمل ثقافة الهدايا وتحاول تشويه هذه الحقيقة وبيعها مرة أخرى إلى كتاب اللباقة أمر مثير للاشمئزاز بصراحة. يعد مطورو LLM و Fandom ثقافتين متعارضتين تمامًا ، وتستفيد إحدى المجموعات من العمل الشاق الذي تقوم به المجموعة الأخرى.

في نهاية اليوم ، إذا أراد أي شخص الجلوس وقراءة 50 ألفًا خارق للعادة الشبقية. ملحمة متعددة الأكوان تمتد 300 ألف ستيف / بوكي فيك ؛ أو دزينة دافئ حرب النجوم في المقاهي ، يمكنهم العثور على ما يريدون من خلال عدد قليل من المرشحات السهلة في الأرشيف. وهو موجود ، مجاني للقراءة بدون قيود ، نظرًا لأن المؤلف استمتع بالكتابة في نفس العالم مثل تلك الشخصيات وأراد أن يستمتع بها الآخرون أيضًا. ويمكنني أن أضمن أنك لن تجد نفس النوع من الثقافة أو التجارب أو حتى الرضا في مطالبة ماجستير في القانون بكتابتها لك. وإذا لم تتمكن من العثور عليه في AO3 ، حسنًا. يمكنك دائما كتابتها بنفسك.


هل تريد المزيد من أخبار io9؟ تحقق من متى تتوقع الأحدث أعجوبةو حرب النجوم، و ستار تريك الإصدارات ، ما هي الخطوة التالية لـ DC Universe على الفيلم والتلفزيون، وكل ما تحتاج لمعرفته حول مستقبل دكتور من.




اكتشاف المزيد من نص كم

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من نص كم

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading