اخبار

لإنشاء إنترنت يمكن الوصول إليه بشكل أكبر ، فإن السياق مهم


انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح. يتعلم أكثر


ويقال إن الصورة تساوي ألف كلمة. لكن الصورة لا يمكنها “التحدث” للأفراد المصابين بالعمى أو ضعف البصر (BLV) دون القليل من المساعدة. في عالم تقوده الصور المرئية ، وخاصة عبر الإنترنت ، يخلق هذا حاجزًا أمام الوصول.

الخبر السار: عندما تصادف برامج قراءة الشاشة – البرنامج الذي يقرأ محتوى صفحات الويب لأشخاص BLV – صورة ، سيقرؤون أي أوصاف “نص بديل” أضافها منشئ موقع الويب إلى كود HTML الأساسي ، مما يجعل الصورة قابلة للوصول .

الأخبار السيئة: القليل من الصور مصحوبة بأوصاف مناسبة للنص البديل.

في الواقع ، وفقًا لإحدى الدراسات ، تم تضمين أوصاف النص البديل في أقل من 6٪ من صور ويكيبيديا باللغة الإنجليزية. وحتى في الحالات التي تقدم فيها مواقع الويب أوصافًا ، فقد لا تساعد مجتمع BLV. تخيل ، على سبيل المثال ، أوصاف النص البديل التي تسرد فقط اسم المصور ، أو اسم ملف الصورة ، أو بعض الكلمات الأساسية للمساعدة في البحث. أو تخيل زر الصفحة الرئيسية على شكل منزل ولكن بدون نص بديل يقول “المنزل”.

حدث

تحويل 2023

انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.

سجل الان

نتيجة لأوصاف الصور المفقودة أو غير المفيدة ، غالبًا ما يتم استبعاد أعضاء مجتمع BLV من تفاعلات الوسائط الاجتماعية القيمة أو غير قادرين على الوصول إلى المعلومات الأساسية على مواقع الويب التي تستخدم الصور للتنقل في الموقع أو لنقل المعنى.

هل يمكن للذكاء الاصطناعي أن يساعد المصابين بالعمى وضعف البصر؟

بينما يجب أن نشجع على استخدام أدوات وواجهات أفضل لدفع الناس نحو إتاحة الوصول إلى الصور ، فإن فشل المجتمع حتى الآن في توفير أوصاف نص بديل مفيدة ويمكن الوصول إليها لكل صورة على الإنترنت يشير إلى إمكانية حل الذكاء الاصطناعي ، كما تقول إليسا كريس ، خريجة طالب في اللغويات بجامعة ستانفورد وعضو في مجموعة معالجة اللغات الطبيعية في ستانفورد.

ومع ذلك ، فإن أوصاف الصور التي تم إنشاؤها بلغة طبيعية (NLG) لم تثبت بعد أنها مفيدة لمجتمع BLV. يقول كريس: “هناك انفصال بين النماذج التي لدينا في علوم الكمبيوتر والتي من المفترض أن تولد نصًا من الصور وما يجد المستخدمون الفعليون أنه مفيد”.

في ورقة بحثية حديثة ، وجدت كريس ومؤلفوها المشاركون في الدراسة (بما في ذلك باحثون من ستانفورد وجوجل برين وجامعة كولومبيا) أن مستخدمي BLV يفضلون أوصاف الصور التي تأخذ السياق في الاعتبار.

نظرًا لأن السياق يمكن أن يغير معنى الصورة بشكل كبير – على سبيل المثال ، لاعب كرة قدم في إعلان Nike مقابل قصة حول إصابات الدماغ الرضحية – تعد المعلومات السياقية أمرًا حيويًا لصياغة أوصاف النص البديل المفيدة.

ومع ذلك ، فإن المقاييس الحالية لجودة وصف الصورة لا تأخذ السياق في الاعتبار. وبالتالي فإن هذه المقاييس توجه تطوير أوصاف صور NLG في اتجاه لن يؤدي إلى تحسين إمكانية الوصول إلى الصور ، كما يقول كريس.

اقرأ الورقة، “السياق مهم لـ صورة أوصاف إمكانية الوصول: تحديات مقاييس التقييم غير المرجعية

وجدت كريس وفريقها أيضًا أن مستخدمي BLV يفضلون أوصاف النص البديل الأطول بدلاً من الأوصاف الموجزة التي يتم الترويج لها عادةً من خلال إرشادات الوصول البارزة – وهي نتيجة تتعارض مع التوقعات.

يقول كريس إن هذه النتائج تسلط الضوء ليس فقط على الحاجة إلى طرق جديدة لتدريب النماذج اللغوية المعقدة ، ولكن أيضًا لطرق جديدة لتقييمها للتأكد من أنها تخدم احتياجات المجتمعات التي صُممت لمساعدتها.

قياس فائدة أوصاف الصور في السياق

يقول كريس إن علماء الكمبيوتر افترضوا منذ فترة طويلة أن أوصاف الصور يجب أن تكون موضوعية ومستقلة عن السياق. لكن أبحاث التفاعل بين الإنسان والحاسوب تُظهر أن مستخدمي BLV يميلون إلى تفضيل الأوصاف الذاتية والملائمة للسياق. “إذا كان الكلب لطيفًا أو كان اليوم المشمس جميلًا ، اعتمادًا على السياق ، فقد يحتاج الوصف إلى توضيح ذلك” ، كما تقول. وإذا ظهرت الصورة على موقع تسوق مقابل مدونة إخبارية ، فيجب أن يعكس وصف النص البديل السياق المعين للمساعدة في توضيح معناه.

ومع ذلك ، فإن المقاييس الحالية لتقييم جودة أوصاف الصورة تركز على ما إذا كان الوصف مناسبًا بشكل معقول للصورة بغض النظر عن السياق الذي يظهر فيه ، كما يقول كريس.

على سبيل المثال ، قد تقيّم المقاييس الحالية بدرجة عالية وصف صورة فريق كرة القدم الذي يقرأ “فريق كرة قدم يلعب في ملعب” ، بغض النظر عما إذا كان مرفقًا بمقال حول التعاون (في هذه الحالة ، يجب أن يتضمن النص البديل شيئًا عن كيفية تعاون الفريق ) ، قصة عن تسريحات الشعر غير العادية للرياضيين (في هذه الحالة يجب وصف تسريحات الشعر) أو تقرير عن انتشار الإعلان في ملاعب كرة القدم (في هذه الحالة يمكن ذكر الإعلان في الساحة). يقول كريس إنه إذا كانت أوصاف الصور تخدم احتياجات مستخدمي BLV بشكل أفضل ، فيجب أن يكون لديهم وعي أكبر بالسياق.

لاستكشاف أهمية السياق ، استعانت كريس وزملاؤها بعاملين في أمازون ميكانيكال ترك لكتابة أوصاف للصور لـ18 صورة ، ظهرت كل منها في ثلاث مقالات مختلفة على ويكيبيديا. بالإضافة إلى مثال كرة القدم المذكور أعلاه ، تضمنت مجموعة البيانات صورًا مثل برج الكنيسة المرتبط بمقالات حول الأسطح ومواد البناء والصلبان المسيحية ؛ وسلسلة جبال وإطلالة على البحيرة مرتبطة بمقالات حول النظم البيئية الجبلية (منحدر جبلي) ، وجسم مائي ، وتكوين الجبال (طريقة محددة تتشكل بها الجبال).

ثم عرض الباحثون الصور على المشاركين المبصرين والمشاركين في دراسة BLV وطلبوا منهم تقييم الجودة الشاملة لكل وصف ؛ القدرة على التخيل (إلى أي مدى ساعدت المستخدمين على تخيل الصورة) ؛ الملاءمة (مدى جودة التقاط المعلومات ذات الصلة) ؛ لا صلة لها بالموضوع (مقدار المعلومات غير ذات الصلة التي أضافتها) ؛ و “ملائمة” عامة (مدى ملاءمة الصورة داخل المقالة).

كشفت الدراسة أن BLV وتقييمات المشاركين المبصرين كانت مترابطة بشكل كبير.

السياق مهم

يقول كريس إن معرفة أن المجموعتين قد تمت موافقتهما في تقييماتهما سيكون مفيدًا عند تصميم أنظمة NLG المستقبلية لتوليد أوصاف الصور. “تعتبر وجهات نظر الأشخاص في مجتمع BLV ضرورية ، ولكن غالبًا أثناء تطوير النظام نحتاج إلى بيانات أكثر بكثير مما يمكننا الحصول عليه من مجتمع BLV منخفض الوقوع.”

نتيجة أخرى: السياق مهم. تتوافق تقييمات المشاركين للجودة الإجمالية لوصف الصورة بشكل وثيق مع تصنيفاتهم من حيث الصلة بالموضوع.

عندما يتعلق الأمر بطول الوصف ، صنف المشاركون في BLV جودة الأوصاف الأطول بدرجة أعلى من المشاركين المبصرين ، وهو اكتشاف يعتبره كريس مفاجئًا ويستحق مزيدًا من البحث. تشير إلى أن “تفضيل المستخدمين لأوصاف صور أقصر أو أطول قد يعتمد أيضًا على السياق”. الأرقام الواردة في الأوراق العلمية ، على سبيل المثال ، قد تستحق أوصافًا أطول.

التوجه نحو مقاييس أفضل لجودة وصف الصورة

تأمل كريس أن تعزز أبحاث فريقها مقاييس جودة وصف الصورة التي من شأنها تلبية احتياجات مستخدمي BLV بشكل أفضل. وجدت هي وزملاؤها أن طريقتين من الأساليب الحالية (CLIPScore و SPURTS) لم تكن قادرة على التقاط السياق.

CLIPScore ، على سبيل المثال ، يوفر فقط درجة توافق للصورة ووصفها. وتقوم SPURTS بتقييم جودة نص الوصف دون الرجوع إلى الصورة.

في حين أن هذه المقاييس يمكن أن تقيّم مصداقية وصف الصورة ، فإن هذه ليست سوى خطوة أولى نحو توليد وصف “مفيد” ، الأمر الذي يتطلب أيضًا الملاءمة (أي الاعتماد على السياق) ، كما يقول كريس.

لذلك لم يكن مفاجئًا أن تصنيفات CLIPScore لأوصاف الصور في مجموعة بيانات الباحثين لا ترتبط بالتقييمات التي أجراها BLV والمشاركين المبصرين. بشكل أساسي ، صنفت CLIPScore جودة الوصف نفسها بغض النظر عن السياق.

عندما أضاف الفريق نص مقالات ويكيبيديا المختلفة لتغيير الطريقة التي يتم بها حساب CLIPScore ، تحسنت العلاقة مع التصنيفات البشرية إلى حد ما – كدليل على المفهوم ، كما يقول كريس ، يمكن جعل مقاييس التقييم الأقل مرجعية واعية بالسياق.

تعمل هي وفريقها الآن على إنشاء مقياس يأخذ السياق في الاعتبار من البداية لجعل الأوصاف أكثر سهولة وأكثر استجابة لمجتمع الأشخاص الذين من المفترض أن تخدمهم.

يقول كريس: “نريد العمل نحو المقاييس التي يمكن أن تقودنا نحو النجاح في هذا المجال الاجتماعي المهم للغاية”. “إذا لم نبدأ بالمقاييس الصحيحة ، فإننا لا نقود التقدم في الاتجاه الذي نريد أن نسير فيه.”

كاثرين ميلر كاتبة مساهمة في معهد ستانفورد للذكاء الاصطناعي الذي يركز على الإنسان.

ظهرت هذه القصة في الأصل على Hai.stanford.edu. حقوق الطبع والنشر 2023

صانعي القرار

مرحبًا بك في مجتمع VentureBeat!

DataDecisionMakers هو المكان الذي يمكن للخبراء ، بما في ذلك الأشخاص التقنيين الذين يقومون بعمل البيانات ، مشاركة الأفكار والابتكارات المتعلقة بالبيانات.

إذا كنت تريد أن تقرأ عن الأفكار المتطورة والمعلومات المحدثة ، وأفضل الممارسات ، ومستقبل البيانات وتكنولوجيا البيانات ، انضم إلينا في DataDecisionMakers.

يمكنك حتى التفكير في المساهمة بمقال خاص بك!

قراءة المزيد من DataDecisionMakers

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى