اخبار

كيف يمكن لقواعد بيانات المتجهات أن تحدث ثورة في علاقتنا مع الذكاء الاصطناعي التوليدي


انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح. يتعلم أكثر


حظي الذكاء الاصطناعي التوليدي بالكثير من الاهتمام هذا العام في عالم التكنولوجيا وخارجه. سواء كان ذلك نثرًا في ChatGPT أو فن Stable Diffusion ، فقد قدم عام 2022 نظرة ثاقبة لإمكانية قيام الذكاء الاصطناعي بتعطيل الصناعات الإبداعية.

ولكن خلف العناوين الرئيسية ، أحدث عام 2022 تطورًا أكثر أهمية في الذكاء الاصطناعي: ظهور قاعدة بيانات المتجهات.

في حين أن تأثيراتها أقل وضوحًا على الفور ، إلا أن اعتماد قواعد بيانات المتجهات يمكن أن يقلب تمامًا الطريقة التي نتفاعل بها مع أجهزتنا ، جنبًا إلى جنب مع تحسين إنتاجيتنا بشكل كبير في مجموعة واسعة من المهام الإدارية والكتابية.

في النهاية ، ستكون قواعد بيانات المتجه بمثابة بنية تحتية أساسية لإحداث التغييرات الاجتماعية والاقتصادية التي وعد بها الذكاء الاصطناعي.

حدث

تحويل 2023

انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.

سجل الان

ولكن ماذا يكون قاعدة بيانات متجه؟ لفهم ذلك ، علينا أن نفهم المشكلة الأساسية التي تعالجها: البيانات غير المهيكلة.

معضلة قاعدة البيانات

قواعد البيانات هي واحدة من أطول القطاعات عمودية وأكثرها مرونة في صناعة البرمجيات. تضاعف إجمالي الإنفاق على قواعد البيانات وحلول إدارة قواعد البيانات من 38.6 مليار دولار في عام 2017 إلى 80 مليار دولار في عام 2021. ومنذ عام 2020 ، عززت قواعد البيانات مكانتها كواحدة من أسرع فئات البرامج نموًا ، بسبب الرقمنة الإضافية بعد التحولات الجماعية إلى العمل عن بعد.

ومع ذلك ، لا تزال قاعدة البيانات الحديثة مقيدة بمشكلة استمرت لعقود: مشكلة البيانات غير المهيكلة. هذا هو ما يصل إلى 80٪ من البيانات المخزنة عالميًا التي لم يتم تنسيقها أو تمييزها أو هيكلتها بطريقة تسمح بالبحث عنها أو استرجاعها بسرعة.

للحصول على تشبيه بسيط للبيانات المهيكلة مقابل البيانات غير المهيكلة ، فكر في جدول بيانات يحتوي على أعمدة متعددة في كل صف. في هذه الحالة ، يتم ملء جميع الأعمدة ذات الصلة في صف “البيانات المنظمة” ، بينما لا يتم ملء صف “البيانات غير المنظمة”. في حالة الإدخال غير المنظم ، قد يكون أنه تم استيراد البيانات تلقائيًا إلى العمود الأول من الصف ؛ يحتاج شخص ما الآن إلى تقسيم تلك الخلية ونشر البيانات في أعمدة ذات صلة.

لماذا البيانات غير المهيكلة مشكلة؟ باختصار ، فإنه يجعل من الصعب فرز المعلومات والبحث فيها ومراجعتها واستخدامها في قاعدة البيانات. ومع ذلك ، فإن فهمنا للبيانات غير المهيكلة يتعلق بكيفية تنظيم البيانات عادة.

تعني العلامات المفقودة أو التنسيق الخاطئ أنه يمكن تفويت الإدخالات غير المنظمة في عمليات البحث أو استبعادها / تضمينها بشكل غير صحيح من التصفية. يقدم هذا مخاطر الخطأ للعديد من عمليات قاعدة البيانات ، والتي يتعين علينا معالجتها من خلال هيكلة البيانات يدويًا. يتطلب هذا منا غالبًا مراجعة الإدخالات غير المهيكلة يدويًا. هذا لا يعني أن البيانات نفسها غير منظمة بالضرورة ؛ يتطلب فقط تدخلًا يدويًا أكثر من وسائلنا المعتادة لتخزين البيانات.

غالبًا ما نسمع عن عبء المراجعة اليدوية مع ادعاءات مثل قضاء علماء البيانات 80٪ من وقتهم في إعداد البيانات. لكن من الناحية العملية ، هذا شيء نقوم به جميعًا إلى حد ما ، أو على الأقل نتعايش مع آثاره. إذا كان عليك أن تتصارع مع مستكشف الملفات للعثور على شيء ما على محرك الأقراص الثابتة أو قضاء الكثير من الوقت في فحص نتائج محرك البحث غير ذات الصلة ، فمن المحتمل أن تكون قد تعرضت لمشكلة البيانات غير المنظمة.

هذا الوقت الضائع في التنسيق اليدوي والمراجعة والتصفية ليس مشكلة جديدة أو رقمية حصرية. على سبيل المثال ، يقوم أمناء المكتبات بترتيب الكتب يدويًا وفقًا لنظام ديوي العشري. مشكلة البيانات غير المهيكلة هي مجرد نسخة رقمية من التحدي الأساسي مع كل مهمة حفظ سجلات قام بها البشر منذ أن اخترعنا الكتابة: نحن بحاجة إلى تصنيف المعلومات لتخزينها واستخدامها.

هذا هو المكان الذي تثبت فيه قواعد بيانات المتجهات مثيرة بشكل خاص. بدلاً من الاعتماد على فئات وقوائم مميزة لتنظيم سجلاتنا ، تضعها قواعد بيانات المتجه بدلاً من ذلك على الخريطة.

النواقل ورسم الخرائط

تستخدم قواعد بيانات المتجهات مفهومًا في التعلم الآلي والتعلم العميق يسمى ناقلات التطريز. تضمين المتجه هو أسلوب يتم فيه تعيين الكلمات أو العبارات في النص إلى متجهات عالية الأبعاد ، تُعرف أيضًا باسم تضمين الكلمات. يتم تعلم هذه المتجهات بطريقة تجعل الكلمات المتشابهة لغويًا قريبة من بعضها البعض في مساحة المتجه.

يسمح هذا التمثيل للشبكات العصبية العميقة بمعالجة البيانات النصية بشكل أكثر فعالية ، وقد أثبت أنه مفيد جدًا في مجموعة متنوعة من مهام معالجة اللغة الطبيعية مثل تصنيف النص والترجمة وتحليل المشاعر.

في سياق قاعدة البيانات ، يعد تضمين المتجه بشكل فعال تمثيلًا عدديًا لمجموعة من الخصائص التي نريد قياسها.

لإنشاء التضمين ، نأخذ نموذجًا مدربًا للتعلم الآلي ونوجهه لمراقبة تلك الخصائص في الإدخالات في مجموعة البيانات.

في حالة سلسلة نصية ، على سبيل المثال ، يمكن إخبار النموذج بتسجيل متوسط ​​طول الكلمة أو درجات تحليل المشاعر أو حدوث كلمات معينة.

يأخذ التضمين النهائي شكل سلسلة من الأرقام المقابلة لـ “الدرجات” المسجلة في تدقيق الخصائص. تأخذ قاعدة بيانات المتجهات درجات زخرفة المتجهات وترسمها على رسم بياني. تشكل كل خاصية نقيسها في تضمين متجه بُعدًا للرسم البياني ، مما يؤدي عادةً إلى احتوائه على أكثر بكثير من الأبعاد الثلاثة التي يمكننا تصورها تقليديًا.

مع كل هذه المعلومات المرسومة ، لا يزال بإمكاننا حساب مدى “بُعد” أي تضمين واحد عن عملية تضمين أخرى بنفس الطريقة التي يمكننا استخدامها في أي رسم بياني آخر. ربما الأهم من ذلك ، يمكننا الانخراط في طريقة جديدة للبحث عن البيانات. من خلال إنشاء متجه تضمين لاستعلام بحث مُدخل ، نرسم نقطة على الرسم البياني نريد استهدافها. بعد ذلك ، يمكننا اكتشاف حفلات الزفاف الأقرب إلى نقطة البحث لدينا.

حفلات الزفاف المتجهات ليست حلاً مثاليًا لكل شيء. يتم تعلمها عادةً بطريقة غير خاضعة للإشراف ، مما يجعل من الصعب تفسير معناها وكيفية مساهمتها في أداء النموذج العام. يمكن أن تحتوي حفلات الزفاف المدربة مسبقًا أيضًا على تحيزات موجودة في بيانات التدريب ، مثل التحيز الجنساني أو العرقي أو السياسي ، والتي يمكن أن تؤثر سلبًا على أداء النموذج.

إمكانات البحث المتجه

لا تعتمد قاعدة بيانات المتجه على العلامات أو الملصقات أو البيانات الوصفية أو غيرها من الأدوات المستخدمة عادةً في هيكلة البيانات. بدلاً من ذلك ، نظرًا لأن تضمين المتجه يمكنه تتبع أي خاصية نعتبرها ذات صلة ، تسمح لنا قواعد بيانات المتجه بالحصول على نتائج بحث بناءً على التشابه العام.

في حين أن عمليات البحث الحالية عن البيانات غير المهيكلة تتضمن مراجعة يدوية وتفسيرًا ، فإن قواعد بيانات المتجه ستسمح لعمليات البحث لتعكس فعليًا معنى وراء استعلاماتنا بدلاً من الخصائص السطحية مثل الكلمات الرئيسية.

سيؤدي هذا التغيير إلى إحداث ثورة في معالجة البيانات وحفظ السجلات ومعظم الأعمال الإدارية والمهام الكتابية. نظرًا لانخفاض نتائج البحث “الإيجابية الخاطئة” وتقليل الحاجة إلى فرز الاستعلامات مسبقًا وتنسيقها في النظام ، يمكن لقواعد بيانات المتجه أن تعزز بشكل كبير إنتاجية وكفاءة أي وظيفة تقريبًا في اقتصاد المعرفة.

بصرف النظر عن المكاسب في الإنتاجية الإدارية ، ستسمح لنا إمكانات البحث المتقدمة هذه بالاعتماد على قواعد البيانات للمشاركة بشكل أكثر فعالية مع الاستعلامات الإبداعية والمفتوحة.

هذا مكمل مثالي لظهور الذكاء الاصطناعي التوليدي. نظرًا لأن قواعد بيانات المتجهات تقلل الحاجة إلى هيكلة البيانات ، يمكننا بشكل كبير تسريع أوقات التدريب لنماذج الذكاء الاصطناعي التوليدية عن طريق أتمتة الكثير من العمل حول معالجة البيانات غير المنظمة للتدريب والإنتاج.

نتيجة لذلك ، يمكن للعديد من المؤسسات ببساطة استيراد بياناتها غير المهيكلة إلى قاعدة بيانات متجه وإخبارها بالخصائص التي تريد قياسها في حفلات الزفاف الخاصة بهم. من خلال إنشاء حفلات الزفاف هذه ، يمكن للمؤسسة أن تقوم بسرعة بتدريب نموذج توليدي ونشره عن طريق السماح لها بالبحث في قاعدة بيانات المتجهات لجمع المعلومات الخاصة بالمهام.

تم تعيين قاعدة بيانات المتجه لتحسين إنتاجيتنا بشكل كبير وإحداث ثورة في كيفية إرسال الاستعلامات إلى أجهزة الكمبيوتر. إجمالاً ، هذا يجعل قواعد بيانات المتجهات واحدة من أهم التقنيات الناشئة في العقد القادم.

ريك هاو شريك في Speedinvest.

صانعي القرار

مرحبًا بك في مجتمع VentureBeat!

DataDecisionMakers هو المكان الذي يمكن للخبراء ، بما في ذلك الأشخاص التقنيين الذين يقومون بعمل البيانات ، مشاركة الأفكار والابتكارات المتعلقة بالبيانات.

إذا كنت تريد أن تقرأ عن الأفكار المتطورة والمعلومات المحدثة ، وأفضل الممارسات ، ومستقبل البيانات وتكنولوجيا البيانات ، انضم إلينا في DataDecisionMakers.

يمكنك حتى التفكير في المساهمة بمقال خاص بك!

قراءة المزيد من DataDecisionMakers


اكتشاف المزيد من نص كم

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من نص كم

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading