اخبار

يتطلع Snorkel AI إلى ما هو أبعد من تسمية البيانات للذكاء الاصطناعي التوليدي


انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح. يتعلم أكثر


لطالما كان تصنيف البيانات مكونًا مهمًا في مساعدة علماء البيانات على إعداد البيانات للتعلم الآلي (ML) والذكاء الاصطناعي (AI). في العصر الحديث للذكاء الاصطناعي التوليدي ، يتغير دور تصنيف البيانات.

تعلن Snorkel AI اليوم عن إمكانات جديدة تتجاوز تصنيف البيانات ، لمساعدة المؤسسات ، وتنظيم البيانات وإعدادها للذكاء الاصطناعي التوليدي. يقوم Snorkel AI بتطوير نظام أساسي للبيانات يساعد المؤسسات في جانب البيانات في AI. مرة أخرى في نوفمبر 2022 ، تم تحديث تقنية Snorkel Flow الخاصة بالشركة بميزات تمكّن المؤسسات من تسريع العملية كثيفة العمالة في كثير من الأحيان لتصنيف البيانات ، باستخدام نماذج اللغات الكبيرة (LLMs) لبدء العملية.

تخطو Snorkel الآن خطوة إلى الأمام من خلال خدمة GenFlow الجديدة لبناء تطبيقات الذكاء الاصطناعي التوليدية ومسبك Snorkel الذي يساعد المؤسسات على بناء LLM مخصصة.

قال أليكس راتنر ، الرئيس التنفيذي والشريك المؤسس في Snorkel AI ، لـ VentureBeat في مقابلة حصرية: “كيف تقوم برعاية البيانات وأخذ عينات منها وتصفيتها وتنظيفها ينتهي بها الأمر إلى إحداث تأثير هائل على نموذج الأساس الناتج الذي تخرجه”. “بعبارة أخرى ، لا يمكنك مجرد إلقاء مزيج عشوائي من البيانات المهملة ، وتوقع ظهور هذه النماذج بشكل جيد.”

حدث

تحويل 2023

انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.

سجل الان

إن جعل Gen AI يعمل بدون بيانات جيدة هو هلوسة

من المخاطر الشائعة التي تواجه أدوات الذكاء الاصطناعي التوليدية المعممة هي الهلوسة ، حيث تكون الاستجابات غير دقيقة.

قال راتنر: “الهلوسة هي مجرد نوع آخر من الخطأ نتيجة عدم تدريب النموذج على القيام بمهمة محددة في المقام الأول.” . “

أضاف راتنر أن الهلوسة بشكل أساسي تحدث نتيجة عدم تدريب النموذج على مهمة محددة أو الأهم من ذلك عدم امتلاكه جميع المعلومات الصحيحة من أجل أن يكون دقيقًا. تتمثل إحدى طرق حل المشكلة التي يتابعها العديد من البائعين في مفهوم الاسترداد المعزز (RAG) ، حيث يتم الاستشهاد بمصادر النتائج التي تم إنشاؤها. لكن ماذا يحدث عندما لا توجد مصادر؟ هذه مشكلة بيانات وهي مشكلة يتطلع Snorkel إلى حلها من خلال Snorkel Foundry.

ما يفعله Snorkel Foundry هو تنظيم البيانات. يمكن للمؤسسات توجيه الخدمة إلى مستودع بيانات كجزء من مرحلة ما قبل التدريب ، لمساعدة علماء البيانات في الحصول على المزيج الصحيح من البيانات لتلبية أهداف العمل ، وتقليل التحيز وخطر الهلوسة.

في حين أن بعض البيانات التي قد تمتلكها المنظمة سيكون لها هيكل ، مثل قاعدة البيانات ، يتوقع راتنر أن غالبية البيانات من المحتمل أن تكون غير منظمة. يتيح Snorkel Foundry للمستخدمين الاستفادة من جميع البيانات غير المهيكلة ويساعدهم أيضًا على اختيار المزيج الصحيح من البيانات للحصول على أفضل النتائج لـ LLM.

أوضح راتنر أن Snorkel Foundry لديه وظيفة لأخذ عينات البيانات التي تمكن المستخدمين من تحديد مدى صلة البيانات بالمعلومات عن مجريات الأمور أو من خلال نهج مدفوع بالنموذج ، للمساعدة في تكوين التوازن الصحيح للمحتوى لوضعه في روتين تدريب ML.

قال راتنر: “معظم الشركات ليس لديها بيانات منظمة بشكل مثالي”. “لذلك نحن نساعدهم على القيام بذلك برمجيًا ، حتى يتمكنوا ، كما تعلم ، من تنظيم وإدارة مزيج البيانات وتحسينه.”

ما وراء وسم البيانات مع GenFlow

بعد التدريب المسبق لـ LLM ، تتمثل الخطوة الشائعة في تنفيذ ضبط تعليمات إضافي ، مع مناهج مشتركة بما في ذلك RLHF (التعلم المعزز من ردود الفعل البشرية).

قال راتنر: “بمجرد أن تقوم بتدريب النموذج مسبقًا على مجموعة كبيرة من البيانات غير المصنفة ، يمكنك تعليمه أو ضبطه بشكل جيد لعمل ملخصات أفضل أو الإجابة عن الأسئلة وإجراء حوار أفضل”.

مع Snorkel Flow لحالات استخدام الذكاء الاصطناعي غير التوليدية ، قال راتنر إن شركته تساعد في تصنيف البيانات بالعلامات بحيث يتم تصنيفها بشكل صحيح بشكل فعال. بالنسبة لمخرجات الذكاء الاصطناعي التوليدية ، فإن هذا النوع من الملصقات ليس هو المطلوب ، وهو المكان الذي تتناسب فيه خدمة GenFlow الجديدة.

يتمحور GenFlow حول توفير الأدوات المناسبة والقدرة الإدارية لتقديم الملاحظات للمساعدة في تصفية نقاط البيانات ذات الجودة الرديئة في محاولة لمساعدة الذكاء الاصطناعي التوليدي على إنشاء مخرجات مثالية.

لماذا تسمية البيانات ليست ميتة

على الرغم من كل الضجيج حول الذكاء الاصطناعي التوليفي في الأشهر الأخيرة ، قال راتنر إنه يتوقع على المدى الطويل أن تأتي معظم قيمة المؤسسة من الذكاء الاصطناعي من الذكاء الاصطناعي التنبئي التقليدي.

أكد راتنر أن تصنيف البيانات لا يزال مهمًا لمهام الذكاء الاصطناعي التنبؤية ، مثل تصنيف الاحتيال. يعد تصنيف البيانات بشكل أساسي نوعًا من التعليقات التي يتم تقديمها للمساعدة في تحسين النموذج.

مع الذكاء الاصطناعي التوليدي ، لا تزال هناك حاجة للتغذية الراجعة ، لكنها تتخذ شكلاً مختلفًا عن شكلها للذكاء الاصطناعي التنبئي. بدلاً من تصنيف شيء ما على أنه نوع أو آخر ، فإن التغذية الراجعة هي أكثر من أن الفرد يفضل ملخصًا أو استجابة على أخرى.

قال: “أثناء قيامك بعملية التجميع والتنظيم والتطوير بمرور الوقت ، فإن هذه التعليقات ، سواء كانت تسميات أو تقييمات إجابات طويلة ، نحاول أن نجعل ذلك أكثر برمجية ، وتسريعًا ، وإدارة أفضل”.

مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.


اكتشاف المزيد من نص كم

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من نص كم

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading