إن روبوت المحادثة الذي استخدمه الملايين من الأشخاص لكتابة أوراق الفصل الدراسي ورموز الكمبيوتر والقصص الخيالية لا يفعل الكلمات فقط. يمكن لـ ChatGPT ، الأداة التي تعمل بالذكاء الاصطناعي من OpenAI ، تحليل الصور أيضًا – وصف ما بداخلها ، والإجابة على الأسئلة المتعلقة بها ، وحتى التعرف على وجوه أشخاص محددين. الأمل هو أنه في النهاية ، يمكن لشخص ما تحميل صورة لمحرك سيارة معطلة أو طفح جلدي غامض ويمكن أن يقترح ChatGPT الإصلاح.
ما لا يريد OpenAI أن يصبح ChatGPT هو آلة للتعرف على الوجه.
خلال الأشهر القليلة الماضية ، كان Jonathan Mosen من بين مجموعة مختارة من الأشخاص الذين لديهم إمكانية الوصول إلى إصدار متقدم من chatbot يمكنه تحليل الصور. في رحلة أخيرة ، استخدم السيد موسين ، الرئيس التنفيذي لوكالة التوظيف وهو كفيف ، التحليل البصري لتحديد أي موزعات في حمام غرفة الفندق هي الشامبو والبلسم وهلام الاستحمام. لقد تجاوز بكثير أداء برنامج تحليل الصور الذي استخدمه في الماضي.
“أخبرني بسعة المليلتر لكل زجاجة. قال السيد موسين “أخبرني عن البلاط في الحمام”. لقد وصفت كل هذا بطريقة يحتاج الكفيف أن يسمعها. وبصورة واحدة ، كان لدي بالضبط الإجابات التي احتاجها “.
للمرة الأولى ، يستطيع السيد موسين “استجواب الصور” ، على حد قوله. وضرب مثالاً: نص مصاحب لصورة عثر عليها على وسائل التواصل الاجتماعي يصفها بأنها “امرأة ذات شعر أشقر تبدو سعيدة”. عندما طلب من ChatGPT تحليل الصورة ، قال روبوت المحادثة إنها امرأة ترتدي قميصًا أزرق داكن ، تلتقط صورة سيلفي في مرآة كاملة الطول. يمكنه طرح أسئلة للمتابعة ، مثل نوع الأحذية التي كانت ترتديها وما الذي كان مرئيًا في انعكاس المرآة.
قال السيد موسين ، 54 عامًا ، الذي يعيش في ويلينجتون بنيوزيلندا ، “إنه أمر غير عادي” ، وقد أظهر التكنولوجيا في بودكاست يستضيفه حول “العيش بشكل أعمى”.
في آذار (مارس) ، عندما أعلنت شركة OpenAI عن GPT-4 ، أحدث نموذج برمجي يدعم روبوت الدردشة الآلي الخاص بها ، قالت الشركة إنها “متعددة الوسائط” ، مما يعني أنها يمكن أن تستجيب لمطالبات النص والصور. بينما كان معظم المستخدمين قادرين على التحدث مع الروبوت بالكلمات فقط ، تم منح السيد Mosen وصولاً مبكرًا إلى التحليل المرئي بواسطة Be My Eyes ، وهي شركة ناشئة تربط عادةً المستخدمين المكفوفين بالمتطوعين المبصرين وتوفر خدمة عملاء يمكن الوصول إليها للشركات عملاء. تعاونت Be My Eyes مع OpenAI هذا العام لاختبار “مشهد” روبوت المحادثة قبل طرح الميزة للجمهور العام.
في الآونة الأخيرة ، توقف التطبيق عن إعطاء السيد موسين معلومات عن وجوه الأشخاص ، قائلاً إنها تم حجبها لأسباب تتعلق بالخصوصية. شعر بخيبة أمل ، وشعر أنه يجب أن يكون له نفس الوصول إلى المعلومات مثل الشخص المبصر.
يعكس التغيير قلق شركة OpenAI من أنها قد بنت شيئًا ما بقوة لا تريد إطلاقها.
قالت سانديني أغاروال ، باحثة سياسة OpenAI ، إن تكنولوجيا الشركة يمكنها تحديد الشخصيات العامة في المقام الأول ، مثل الأشخاص الذين لديهم صفحة ويكيبيديا ، لكنها لا تعمل بشكل شامل مثل الأدوات المصممة للعثور على الوجوه على الإنترنت ، مثل تلك الموجودة في Clearview AI و PimEyes. . قالت أغاروال إن الأداة يمكن أن تتعرف على الرئيس التنفيذي لشركة OpenAI ، سام التمان ، في الصور ، ولكن ليس الأشخاص الآخرين الذين يعملون في الشركة.
إن إتاحة مثل هذه الميزة للجمهور من شأنه أن يدفع حدود ما كان يعتبر عمومًا ممارسة مقبولة من قبل شركات التكنولوجيا الأمريكية. قد يتسبب أيضًا في مشاكل قانونية في الولايات القضائية ، مثل إلينوي وأوروبا ، التي تتطلب من الشركات الحصول على موافقة المواطنين على استخدام معلومات القياسات الحيوية الخاصة بهم ، بما في ذلك بصمة الوجه.
بالإضافة إلى ذلك ، شعرت شركة OpenAI بالقلق من أن الأداة ستقول أشياء لا ينبغي لها أن تتحدث عن وجوه الناس ، مثل تقييم جنسهم أو حالتهم العاطفية. قالت السيدة أغاروال إن أوبن إيه آي تكتشف كيفية معالجة هذه المخاوف وغيرها من مخاوف السلامة قبل إطلاق ميزة تحليل الصور على نطاق واسع.
قالت: “نريد بشدة أن تكون هذه محادثة ثنائية الاتجاه مع الجمهور”. “إذا كان ما نسمعه هو ،” نحن في الواقع لا نريد أيًا منه “، فهذا شيء نتعامل معه كثيرًا. “
بالإضافة إلى التعليقات الواردة من مستخدمي Be My Eyes ، تحاول ذراع الشركة غير الربحية أيضًا التوصل إلى طرق للحصول على “مدخلات ديمقراطية” للمساعدة في وضع قواعد لأنظمة الذكاء الاصطناعي.
قالت السيدة أغاروال إن تطوير التحليل البصري لم يكن “غير متوقع” ، لأن النموذج تم تدريبه من خلال النظر إلى الصور والنصوص التي تم جمعها من الإنترنت. وأشارت إلى أن برامج التعرف على الوجوه الخاصة بالمشاهير موجودة بالفعل مثل أداة من جوجل. تقدم Google خيار إلغاء الاشتراك للأشخاص المعروفين الذين لا يريدون أن يتم التعرف عليهم ، و OpenAI تدرس هذا النهج.
قالت السيدة Agarwal إن التحليل البصري لـ OpenAI يمكن أن ينتج عنه “هلوسة” مماثلة لما شوهد مع المطالبات النصية. قالت: “إذا أعطيته صورة لشخص على عتبة أن يصبح مشهوراً ، فقد يؤدي ذلك إلى الهلوسة باسم ما”. “مثل إذا أعطيته صورة لرئيس تنفيذي تقني مشهور ، فقد يعطيني اسم مدير تنفيذي تقني مختلف.”
قال إن الأداة ذات مرة وصفت بشكل غير دقيق جهاز التحكم عن بعد للسيد Mosen ، وأخبرته بثقة أن هناك أزرارًا لم تكن موجودة.
مايكروسوفت ، التي استثمرت 10 مليارات دولار في OpenAI ، لديها أيضًا إمكانية الوصول إلى أداة التحليل المرئي. شاهد بعض مستخدمي Bing chatbot من Microsoft المدعوم بالذكاء الاصطناعي الميزة تظهر في طرح محدود ؛ بعد تحميل الصور عليه ، تلقوا رسالة تخبرهم أن “تمويه الخصوصية يخفي الوجوه من دردشة Bing”.
استخدم ساياش كابور ، عالم الكمبيوتر ومرشح الدكتوراه في جامعة برينستون ، الأداة لفك تشفير كلمة التحقق ، وهي عبارة عن فحص أمني بصري يُقصد به أن يكون مفهوماً فقط للعين البشرية. حتى أثناء كسر الشفرة والتعرف على الكلمتين الغامضتين المقدمتين ، لاحظ روبوت الدردشة أن “الكابتشا مصممة لمنع الروبوتات الآلية مثلي من الوصول إلى مواقع أو خدمات معينة”.
قال إيثان مولليك ، الأستاذ المشارك الذي يدرس الابتكار وريادة الأعمال في كلية وارتون بجامعة بنسلفانيا: “الذكاء الاصطناعي ينفخ في كل الأشياء التي من المفترض أن تفصل بين البشر والآلات”.
منذ أن ظهرت أداة التحليل المرئي فجأة في إصدار السيد موليك من برنامج دردشة Bing في الشهر الماضي – مما جعله ، دون أي إشعار ، أحد الأشخاص القلائل الذين لديهم إمكانية الوصول المبكر – لم يغلق جهاز الكمبيوتر الخاص به خوفًا من فقدانه. أعطاها صورة من التوابل في الثلاجة وطلب من Bing اقتراح وصفات لهذه المكونات. جاء مع “صودا الكريمة المخفوقة” و “صلصة الهالبينو الكريمية”.
يبدو أن كل من OpenAI و Microsoft على دراية بقوة – والآثار المحتملة على الخصوصية – لهذه التكنولوجيا. قال متحدث باسم Microsoft إن الشركة لا “تشارك التفاصيل التقنية” حول تشويش وضوح الوجه ولكنها تعمل “بشكل وثيق مع شركائنا في OpenAI لدعم التزامنا المشترك بالنشر الآمن والمسؤول لتقنيات الذكاء الاصطناعي.”
اكتشاف المزيد من نص كم
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.