GTC 2023: تشارك Nvidia كيف يمكن لـ Rapids حماية Apache Spark في المستقبل

GTC 2023: تشارك Nvidia كيف يمكن لـ Rapids حماية Apache Spark في المستقبل


انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح. يتعلم أكثر


بعد الارتفاع الأولي لـ Hadoop ، اعتمدت فرق البيانات عبر الصناعات Apache Spark كإطار عمل للانتقال إلى معالجة البيانات الضخمة الموزعة. استبدلت المنصة مفتوحة المصدر إلى حد كبير Mapreduce Hadoop من خلال تمكين معالجة أسرع في الذاكرة لمجموعات البيانات ، والتعامل مع حالات الاستخدام التي لم يتمكن Hadoop من إدارتها. يمكن الوصول إلى Spark أيضًا من حيث واجهات برمجة التطبيقات ، ومدعومة بالتسامح الكافي مع الخطأ.

ومع ذلك ، مع توقع زيادة حجم البيانات في العالم إلى 221 زيتابايت بحلول عام 2026 ، من الصعب على المؤسسات السيطرة على المعلومات التي لديها. بسرعات المعالجة الحالية ، ستواجه الشركات فترات استجابة في تطبيقات الأعمال مثل التحليلات. وإذا تحركوا لزيادة السرعات ، فإن التكاليف ترتفع.

لهذا السبب يجب على الفرق النظر في خيار تسريع Spark باستخدام وحدات معالجة الرسومات ، عبر Rapids ، كما قال سمير راهجة ، كبير مديري الهندسة في Nvidia ، في مؤتمر GTC 2023 الجاري.

>> تابع تغطية Nvidia GTC المستمرة لربيع 2023 من VentureBeat <<

حدث

تحويل 2023

انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.

سجل الان

اباتشي سبارك المسرَّعة بوحدة معالجة الجرافيكس

للتعامل مع متطلبات البيانات المستقبلية باستخدام Spark ، اقترح راهيجا تشغيل الإطار باستخدام وحدات معالجة الرسومات Nvidia. قال إن جرة مكونة إضافية مثل Rapids Accelerator لـ Apache Spark ، يمكن أن تسمح بمعالجة مجموعة Spark للعمل على وحدات معالجة الرسومات دون أي تغييرات في التعليمات البرمجية.

وقال إن هذا لن يمكّن الفرق من تشغيل وظائف البيانات الضخمة بشكل أسرع وبتكلفة أقل مما هو ممكن مع وحدات المعالجة المركزية فحسب ، بل سيؤدي أيضًا إلى توفير الطاقة.

يجمع Rapids Accelerator لـ Apache Spark بين قوة مكتبة Rapids cuDF ومقياس إطار عمل Spark للحوسبة الموزعة. تحتوي مكتبة Rapids Accelerator أيضًا على نظام خلط عشوائي مدمج يعتمد على UCX يمكن تهيئته للاستفادة من اتصالات GPU إلى GPU وإمكانيات الوصول المباشر للذاكرة عن بُعد.

باستخدام معيار دعم القرار Nvidia – وهو تكييف لمعيار TPC-DS القياسي في الصناعة ، مع 100 استعلام معدل – قارنت الشركة توزيع Spark للبيانات السحابية المستند إلى وحدة معالجة الرسومات (GPU) المعتمد على Rapids مع واحد يعتمد على وحدات المعالجة المركزية. قامت عقد GPU بتشغيل الطاقة لجميع الاستعلامات المائة في 31 دقيقة فقط ، مقابل 176 دقيقة التي استغرقتها عقد وحدة المعالجة المركزية.

نظرًا لأن تشغيل GPU استغرق وقتًا أقل ، فقد ثبت أيضًا أنه أكثر تكلفة من عقد وحدة المعالجة المركزية ، حيث تكلف 7.20 دولارًا فقط مقابل 32.52 دولارًا لتشغيل وحدة المعالجة المركزية. كان تشغيل وحدة معالجة الرسومات أكثر كفاءة في استخدام الطاقة بخمس مرات.

معايير NDS

وأكد راهيجا: “بالنسبة لأي شخص يدير أعباء عمل البيانات الضخمة ويدير الميزانية … الأداء والتكلفة والفعالية هي عوامل رئيسية ، ويتناول Rapids Accelerator for Spark الثلاثة”.

وأضاف أنه شوهدت نتائج معيارية مماثلة على توزيعات السحب و Spark الأخرى مع تكوينات تتطابق بشكل وثيق مع Dataproc. على سبيل المثال ، شهد توزيع AWS EMR المعجل من Rapids توفيرًا في التكاليف بنسبة 42٪ ، في حين أن AWS Databricks Photon و Azure Databricks Photon وفورات بنسبة 39٪ و 34٪ على التوالي.

التوفير عبر السحب المختلفة

كيف تعمل

مفتاح هذه الفوائد هو Apache Spark 3 ، الذي يوفر إمكانات جدولة موارد مخصصة تعتمد على الأعمدة وتدرك الموارد. يتيح ذلك للفرق جدولة المهام على موارد التسريع مثل وحدات معالجة الرسومات.

“يمكنك الاستمرار في كتابة تطبيقك في واجهات برمجة التطبيقات التي تعرفها – SQL و Python و R و Java و Scala. يوفر Spark قوة حوسبة موزعة وموسعة ؛ يوفر شرارة 3.x جدولة مدركة للموارد ؛ ويوفر Rapids Accelerator للمكون الإضافي Apache Spark شفافية للتطبيقات للتشغيل على وحدات معالجة الرسومات Nvidia ، مما يتيح التسريع بالتعاون مع [the] قال راهيجة: “المعالج المدمج في محرك سبارك الأساسي”.

حاليًا ، مُسرِع Rapids Spark متاح ومُدمج في Amazon EMR و Cloudera CDP و Databricks ML runtime و Azure Synapse Analytics و Google Cloud Dataproc وتوزيعات Apache Spark 3.x مفتوحة المصدر ، سواء في أماكن العمل أو في السحابة.

يستمر حدث 2023 Nvidia GTC حتى 23 مارس.

مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.

Comments

No comments yet. Why don’t you start the discussion?

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *