اخبار

تقوم Databricks و Hugging Face بدمج Apache Spark لبناء نموذج AI أسرع


انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح. يتعلم أكثر


تعاونت Databricks و Hugging Face لتقديم ميزة جديدة تتيح للمستخدمين إنشاء مجموعة بيانات Hugging Face من إطار بيانات Apache Spark. يوفر هذا التكامل الجديد طريقة أكثر وضوحًا لتحميل البيانات وتحويلها لتدريب نموذج الذكاء الاصطناعي (AI) وضبطه. يمكن للمستخدمين الآن تعيين إطار بيانات Spark الخاص بهم في مجموعة بيانات Hugging Face للتكامل في خطوط أنابيب التدريب.

مع هذه الميزة ، تهدف Databricks و Hugging Face إلى تبسيط عملية إنشاء مجموعات بيانات عالية الجودة لنماذج الذكاء الاصطناعي. بالإضافة إلى ذلك ، يوفر هذا التكامل أداة تشتد الحاجة إليها لعلماء البيانات ومطوري الذكاء الاصطناعي الذين يحتاجون إلى أدوات إدارة بيانات فعالة لتدريب نماذجهم وضبطها.

يقول Databricks أن التكامل الجديد يجلب أفضل ما في العالمين: مزايا توفير التكلفة والسرعة لـ Spark مع تعيين الذاكرة وتحسينات التخزين المؤقت الذكية من مجموعات بيانات Hugging Face ، مضيفًا أن المؤسسات ستكون الآن قادرة على تحقيق تحويلات بيانات أكثر كفاءة عبر الذكاء الاصطناعي الهائل مجموعات البيانات.

إطلاق العنان لإمكانات الشرارة الكاملة

كتب موظفو Databricks (راجعوا كود المصدر إلى المستودع) وقاموا بتحديث Spark إلى مستودع Hugging Face. من خلال مكالمة بسيطة إلى from_spark من خلال توفير إطار بيانات Spark ، يمكن للمستخدمين الآن الحصول على مجموعة بيانات Hugging Face محملة بالكامل في قاعدة التعليمات البرمجية الخاصة بهم والتي تكون جاهزة للتدريب أو ضبط النموذج. يلغي هذا التكامل الحاجة إلى عمليات إعداد البيانات المعقدة والمستهلكة للوقت.

حدث

تحويل 2023

انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.

سجل الان

تدعي Databricks أن التكامل يمثل خطوة كبيرة إلى الأمام لتطوير نموذج الذكاء الاصطناعي ، مما يمكّن المستخدمين من إطلاق العنان للإمكانات الكاملة لـ Spark لضبط النموذج.

قال جيف بودير ، رئيس تحقيق الدخل والنمو في Hugging Face ، لموقع VentureBeat: “إن الذكاء الاصطناعي ، في جوهره ، يتعلق بالبيانات والنماذج”. “إن جعل هذين العالمين يعملان بشكل أفضل معًا في طبقة مفتوحة المصدر سيسرع من اعتماد الذكاء الاصطناعي لإنشاء تدفقات عمل قوية للذكاء الاصطناعي يمكن للجميع الوصول إليها. يقلل هذا التكامل بشكل كبير من الاحتكاك في جلب البيانات من Spark إلى مجموعات بيانات Hugging Face لتدريب نماذج جديدة وإنجاز العمل. نحن متحمسون لرؤية مستخدمينا يستفيدون منها “.

طريقة جديدة لدمج إطارات بيانات Spark لتطوير النموذج

تؤمن Databricks أن الميزة الجديدة ستغير قواعد اللعبة بالنسبة للمؤسسات التي تحتاج إلى معالجة كميات هائلة من البيانات بسرعة وموثوقية لدعم سير عمل التعلم الآلي (ML).

تقليديا ، كان على المستخدمين كتابة البيانات في ملفات باركيه – تنسيق عمودي مفتوح المصدر ، ثم إعادة تحميلهم باستخدام مجموعات بيانات Hugging Face. لم تكن إطارات بيانات Spark مدعومة سابقًا من قبل مجموعات بيانات Hugging Face ، على الرغم من النطاق الواسع للنظام الأساسي لأنواع الإدخال المدعومة.

ومع ذلك ، مع “from_spark“، يمكن للمستخدمين الآن استخدام Spark لتحميل بياناتهم وتحويلها بكفاءة من أجل التدريب ، مما يقلل بشكل كبير من وقت معالجة البيانات والتكاليف.

قال كريج وايلي ، مدير أول لإدارة المنتجات في داتابريكس: “بينما نجحت الطريقة القديمة ، فإنها تتحايل على الكثير من الكفاءات والتوازي الكامنين في Spark”. “القياس هو أخذ ملف PDF وطباعة كل صفحة ثم إعادة مسحها ضوئيًا ، بدلاً من القدرة على تحميل ملف PDF الأصلي. مع أحدث إصدار من Hugging Face ، يمكنك استعادة مجموعة بيانات Hugging Face التي تم تحميلها مباشرة في قاعدة الشفرة الخاصة بك ، لتكون جاهزة للتدريب أو ضبط النماذج الخاصة بك. “

تقليل وقت المعالجة بشكل كبير

يسخر التكامل الجديد إمكانات Spark الموازية لتنزيل مجموعات البيانات ومعالجتها ، وتخطي الخطوات الإضافية لإعادة تنسيق البيانات. تدعي Databricks أن تكامل Spark الجديد قد قلل من وقت المعالجة لمجموعة بيانات 16 جيجابايت بأكثر من 40 ٪ ، حيث انخفض من 22 إلى 12 دقيقة.

أوضح ويلي قائلاً: “نظرًا لأن نماذج الذكاء الاصطناعي تعتمد بطبيعتها على البيانات المستخدمة لتدريبها ، ستناقش المؤسسات المفاضلات بين التكلفة والأداء عند تحديد مقدار البيانات التي يجب استخدامها ومقدار الضبط الدقيق أو التدريب الذي يمكنهم تحمله”. “ستساعد Spark على تحقيق الكفاءة على نطاق واسع لمعالجة البيانات ، بينما توفر Hugging Face لهم مستودعًا متطورًا من النماذج مفتوحة المصدر ومجموعات البيانات والمكتبات التي يمكنهم استخدامها كأساس لتدريب نماذج الذكاء الاصطناعي الخاصة بهم.”

المساهمة في تطوير الذكاء الاصطناعي مفتوح المصدر

تهدف Databricks إلى دعم مجتمع المصادر المفتوحة من خلال الإصدار الجديد ، قائلة إن Hugging Face تتفوق في تقديم نماذج ومجموعات بيانات مفتوحة المصدر. تخطط الشركة أيضًا لتقديم دعم التدفق عبر Spark لتعزيز تحميل مجموعة البيانات.

قال وايلي: “لطالما كانت Databricks مؤمنًا قويًا جدًا بمجتمع المصادر المفتوحة ، في جزء صغير منه لأننا رأينا بشكل مباشر التعاون المذهل في مشاريع مثل Spark و Delta Lake و MLflow”. نعتقد أن الأمر سيستغرق قرية لرفع الجيل القادم من الذكاء الاصطناعي ، ونرى Hugging Face كمؤيد رائع لهذه المثل العليا “.

في الآونة الأخيرة ، قدمت Databricks موزع PyTorch لـ Spark لتسهيل تدريب PyTorch الموزع على نظامها الأساسي وإضافة وظائف AI إلى خدمة SQL الخاصة بها ، مما يسمح للمستخدمين بدمج OpenAI (أو نماذجهم الخاصة في المستقبل) في استفساراتهم.

بالإضافة إلى ذلك ، يدعم أحدث إصدار من MLflow مكتبة المحولات وتكامل OpenAI ودعم Langchain.

أضاف Wiley: “لدينا الكثير في الأعمال ، سواء فيما يتعلق بالذكاء الاصطناعي التوليدي أو على نطاق أوسع في مساحة منصة ML”. “ستحتاج المؤسسات إلى وصول سهل إلى الأدوات اللازمة لبناء مؤسسة الذكاء الاصطناعي الخاصة بها ، ونحن نعمل بجد لتوفير أفضل منصة في العالم لها.”

مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.


اكتشاف المزيد من نص كم

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من نص كم

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading