انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح. يتعلم أكثر
من المفهوم على نطاق واسع أن الذكاء الاصطناعي اليوم متعطش للبيانات وأن نماذج اللغات الكبيرة (LLMs) مدربة على مجموعات ضخمة من البيانات غير المسماة. ولكن في الأسبوع الماضي ، حصل عامة الناس على نظرة خاطفة كاشفة تحت غطاء أحدهم ، عندما نشرت صحيفة واشنطن بوست نظرة عميقة على مجموعة بيانات Google C4 ، أو مجموعة البيانات الإنجليزية Colossal Clean Crawled Corpus.
من خلال العمل مع باحثين من معهد ألين للذكاء الاصطناعي ، كشف المنشور عن 15 مليون موقع ، بما في ذلك مواقع الويب المملوكة والشخصية والمسيئة ، والتي دخلت في بيانات التدريب – والتي تم استخدامها لتدريب نماذج رفيعة المستوى مثل Google T5 و Meta LLaMA.
ووفقًا للمقال ، فقد هيمنت على مجموعة البيانات “مواقع الويب من الصناعات بما في ذلك الصحافة والترفيه وتطوير البرمجيات والطب وإنشاء المحتوى ، مما يساعد في تفسير سبب تهديد هذه المجالات من قبل الموجة الجديدة من الذكاء الاصطناعي”.
قامت منظمة CommonCrawl غير الربحية بكشط C4 في أبريل 2019. وقالت CommonCrawl لصحيفة واشنطن بوست إنها “تحاول إعطاء الأولوية للمواقع الأكثر أهمية وذات السمعة الطيبة ، لكنها لا تحاول تجنب المحتوى المرخص أو المحمي بحقوق الطبع والنشر.”
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
يتم تمثيل VentureBeat جيدًا في مجموعة البيانات
لا ينبغي أن يكون مفاجئًا ، إذن ، أن البحث السريع في مواقع الويب في مجموعة البيانات (المعروض في المقالة من خلال مربع بحث بسيط) أظهر أن VentureBeat تم تمثيله جيدًا ، مع 10 ملايين رمز (تم استخدام أجزاء صغيرة من النص في معالجة المعلومات غير المنظمة – عادة كلمة أو عبارة). ولكن كان من المثير للقلق أن أجد أن كل منشور كتبته من أجله هو أيضًا – حتى تلك التي حاولت فيها توقيع عقود مواتية للعمل المستقل – وحتى موقع الويب الخاص بالموسيقى هو جزء من مجموعة البيانات.
ضع في اعتبارك ، لقد طورت جلدًا سميكًا عندما يتعلق الأمر بحفر البيانات الرديئة. بدأت الكتابة عن تحليلات البيانات منذ أكثر من 10 سنوات لمجلة تغطي صناعة التسويق المباشر – وهي شركة اعتمدت لعقود على وسطاء القائمة البريدية الذين باعوا أو استأجروا الوصول إلى مجموعات البيانات القيمة. لقد أمضيت سنوات في تغطية العالم الجامح والصوفي لتكنولوجيا الإعلان الرقمي ، مع “ملفات تعريف الارتباط” المخيفة التي تسمح للعلامات التجارية بمتابعتك في جميع أنحاء الويب. وشعرت وكأنها دهور منذ أن اكتشفت أن نظام تحديد المواقع العالمي (GPS) في سيارتي وهاتفي كانا يجمعان البيانات لمشاركتها مع العلامات التجارية.
لذلك كان علي أن أسأل نفسي: لماذا شعرت بالغرابة لدرجة أن مخرجاتي الإبداعية قد تم امتصاصها في فراغ مجموعات بيانات الذكاء الاصطناعي عندما يكون جزء كبير من حياتي جاهزًا بالفعل؟
تدريب نماذج الذكاء الاصطناعي مع مجموعات البيانات الضخمة ليس بالأمر الجديد
إن تدريب نماذج الذكاء الاصطناعي مع مجموعات البيانات الضخمة ليس بالأمر الجديد بالطبع. تم نشر مجموعة بيانات Google C4 في عام 2020 ، بينما تم نشر مجموعة بيانات The Pile ، وهي مجموعة بيانات أخرى كبيرة ومتنوعة ونمذجة للغة مفتوحة المصدر تم تطويرها بواسطة Eleuther AI ، والتي تتكون من كل شيء من PubMed إلى Wikipedia إلى Github ، في عام 2020 أيضًا. ، StableLM ، تم تدريبه على مجموعة بيانات تجريبية جديدة مبنية على The Pile تحتوي على 1.5 تريليون من الرموز المميزة.
في الواقع ، تمت مشاركة The Pile على نطاق واسع في هذه المرحلة لدرجة أن إليوثر جادل في مقال نشر مؤخرًا في صحيفة الغارديان بأنه “لا يشكل ضررًا متزايدًا بشكل كبير”. ومع ذلك ، في عام 2021 ، ستيلا روز بايدرمان ، المديرة التنفيذية لشركة Eleuther AI ، يشير الى خارج على Twitter ، اعتبرت أن مجموعة بيانات C4 “أقل جودة من Pile ، أو أي مجموعة بيانات أخرى يتم تنسيقها وإنتاجها بشكل انتقائي”. بالإضافة إلى ذلك ، قالت في ذلك الوقت إنها “شعرت بسعادة غامرة لأن مجموعة البيانات هذه علنية … سبب رئيسي #إليوثير جعل Pile هو عدم وجود مجموعات بيانات متاحة للجمهور (وبالتالي قابلة للنقد علنًا) لتدريب LLM “.
من المؤكد أن جزءًا من عامل “اليقظة” هو أنه من الصعب للغاية أن ألتف ذهني حول حجم البيانات التي نتحدث عنها هنا وعدم الوضوح حول كيفية استخدام البيانات بالضبط.
في مقال الجارديان ، قال مايكل وولدريدج ، أستاذ علوم الكمبيوتر في جامعة أكسفورد ، إن ماجستير إدارة الأعمال ، مثل تلك التي تدعم ChatGPT من OpenAI و Google Bard ، تجمع كميات هائلة من البيانات.
“يشمل ذلك شبكة الويب العالمية بأكملها – كل شيء. يتم اتباع كل رابط في كل صفحة ، ويتم اتباع كل رابط في تلك الصفحات … في هذا الكم الهائل من البيانات ربما يكون هناك الكثير من البيانات عنك وعني ، “قال. “ولا يتم تخزينها في قاعدة بيانات كبيرة في مكان ما – لا يمكننا أن ننظر لنرى بالضبط ما هي المعلومات الموجودة لدي. كل ذلك مدفون بعيدًا في شبكات عصبية هائلة ومبهمة “.
الجانب الإنساني لبيانات تدريب الذكاء الاصطناعي
في صميم ما يزعجني ، أعتقد ، أسئلة حول الجانب الإنساني لبيانات تدريب الذكاء الاصطناعي. لا أعتقد أن وظيفتي ككاتبة أولى في VentureBeat معرضة للخطر بشكل وشيك بسبب نماذج اللغة الكبيرة مثل ChatGPT ، ولكن مع ذلك من المزعج معرفة أن مقالاتي هي جزء من مجموعة البيانات التي تدربهم. يبدو الأمر كما لو أنني ساعدت في تدريب المتدرب الطموح الذي يتظاهر بأنه أوزة مافريك لكنه يخطط لطردي من الطائرة تمامًا. وككاتب يغطي عالم الذكاء الاصطناعي ، فإنه يشعر بشكل خاص بالميتا.
باحثو الذكاء الاصطناعي لا يوافقون بالضرورة. على سبيل المثال ، تحدثت الأسبوع الماضي مع Vipul Ved Prakash ، المؤسس والرئيس التنفيذي لشركة Together ، والتي أعلنت أن مشروعها RedPajama قد كرر مجموعة بيانات Meta LLaMA بهدف بناء LLMs مفتوحة المصدر وحديثة.
أخبرني براكاش أنه يعتقد أن “هذه النماذج تلتقط بطريقة ما ناتج المجتمع البشري وهناك نوع من الالتزام لجعلها مفتوحة وقابلة للاستخدام من قبل الجميع” ، مضيفًا أن “معظم سحر” هذه النماذج يأتي من الحقيقة أنهم مدربون على بيانات “واسعة وواسعة النطاق حقًا”.
كما أشار إلى أن البيانات الأصلية مضغوطة بشكل كبير في النماذج الفعلية التي تنتج عنها. يبلغ حجم مجموعة بيانات RedPajama 5 تيرابايت ، لكن النماذج التي تم إنشاؤها يمكن أن تكون صغيرة مثل 14 جيجا بايت ، أي 500 مرة أصغر من البيانات الأصلية التي يتم تصميمها.
قال براكاش: “هذا يعني أن المعرفة من البيانات يتم تجريدها وتحويلها ونمذجتها في تمثيل مختلف تمامًا لأوزان وتحيزات المعلمات في نموذج الشبكة العصبية ، ولا يتم تخزينها واستخدامها في شكلها الأصلي”. لذلك ، “لا يتم إعادة إنتاج بيانات التدريب – إنه عمل مشتق فوق ذلك. من فهمنا ، يُعتبر استخدامًا عادلًا طالما أن النموذج لا يعيد إنتاج البيانات – إنه يتعلم منها “.
التصدي لترميز البيانات
أستطيع أن أفهم وجهة نظر براكاش كباحث في الذكاء الاصطناعي. ولكن بصفتي منشئًا بشريًا ، يمكنني أيضًا أن أفهم أنه بغض النظر عن كيفية “تجريد بياناتنا وتحويلها ونمذجتها” ، فإنها تأتي من المخرجات البشرية ، مما يعني وجود عواقب. أعني ، إذا كنت نباتيًا ، فقط لأن أجزاء الحيوانات قد تم غليها في النسيان ، فهذا لا يعني أن الأطعمة التي تحتوي على الجيلاتين ليست محظورة.
هناك قضايا حقوق نشر ضخمة حول نماذج اللغات الكبيرة ، مع المزيد والمزيد من الدعاوى القضائية التي يتم رفعها. هناك مخاوف كبيرة حول المعلومات الخاطئة ، مع المناقشات حول التنظيم يتحرك في المقدمة والوسط. أغلقت شركات مثل OpenAI بالكامل تقريبًا حول مجموعات البيانات التي تستخدمها لبناء نماذجها. إنهم يعلمون بالتأكيد أنه كلما زادت الدعاية التي تحصل عليها مجموعات البيانات الضخمة هذه ، كلما زاد الضغط من الجمهور ، الذي بدأ للتو في فهم تداعيات مشاركة حياتهم وسبل عيشهم مع الإنترنت.
لا أعرف ما هي الحلول لهذه التحديات. لكنني سأستمر في الإبلاغ عن الاحتمالات. ومع ذلك ، بدءًا من الأسبوع المقبل ، سأتوقف قليلاً عن الإضافة إلى مجموعات بيانات الويب – سأذهب في إجازة لمدة أسبوعين اعتبارًا من 30 أبريل. سأعود بإيقاع جديد للذكاء الاصطناعي في منتصف مايو!
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.