نقدم لكم عبر موقع “نص كم” علوم تكنولوجية محدثة باستمرار نترككم مع “تقرير: بيع بيانات Tumblr وWordPress لـ OpenAI وMidjourney لتدريب نماذج الذكاء الاصطناعى”
وعلاوة على ذلك، يبدو أن تجميع البيانات لشركات الذكاء الاصطناعي قد بدأ بالفعل، وفي الوقت نفسه، اقترح منشور داخلي نشره مدير المنتج Cyle Gage أنه تم تجميع كل محتوى منشورات Tumblr العامة بين عامي 2014 و2023.
ويسلط التقرير الضوء أيضًا على رسالة محددة تشير إلى أنه تم أيضًا تجميع محتوى المستخدم الخاص والمحذوف تلقائيًا، إلى جانب البيانات العامة. ولم يكن من الواضح ما إذا كانت مجموعة البيانات هذه قد تمت مشاركتها بالفعل مع شركات الذكاء الاصطناعي أم لا.
وعلاوة على ذلك، نظرًا لأن مثل هذا الحادث يعرض المعلومات الخاصة لقاعدة المستخدمين بالكامل للخطر، فإنه يثير أيضًا سؤالاً حول السياسة الأخلاقية للشركة والبنية التحتية لسلامة البيانات.
وأصدرت شركة Automattic يوم الثلاثاء بيانًا جاء فيه: “يعمل الذكاء الاصطناعي على إحداث تحول سريع في كل جانب من جوانب عالمنا تقريبًا، بما في ذلك الطريقة التي ننشئ بها المحتوى ونستهلكه، وفي Automattic، نحن نؤمن دائمًا بالويب الحر والمفتوح والاختيار الفردي، ومثل شركات التكنولوجيا الأخرى، نحن نتابع هذه التطورات عن كثب، بما في ذلك كيفية العمل مع شركات الذكاء الاصطناعي بطريقة تحترم تفضيلات مستخدمينا.
يوضح المنشور بالتفصيل العديد من الأشياء التي تفعلها الشركة لمستخدميها، بما في ذلك حظر برامج زحف النظام الأساسي للذكاء الاصطناعي، وإعداد لمنع محركات البحث من فهرسة موقع على WordPress وTumblr، وضمان إعداد إلغاء الاشتراك للمستخدمين الذين لا يرغبون في المشاركة، البيانات مع الطرف الثالث، وجاء في المنشور: “في الوقت الحالي، لا يوجد قانون يلزم برامج الزحف باتباع هذه التفضيلات”.
كما أن آلية إلغاء الاشتراك في مشاركة البيانات غير واضحة إلى حد ما، وبينما ذكرت الشركة في المنشور أن شركات الذكاء الاصطناعي ستحترم إعدادات إلغاء الاشتراك وحتى تزيل المحتوى السابق من المستخدمين الذين قاموا بإلغاء الاشتراك حديثًا، يدعي التقرير أن الواقع أكثر تعقيدًا.
ووجد التقرير وثيقة داخلية بتاريخ 23 فبراير حيث سأل أحد الموظفين عما إذا كان لدى الشركة أي ضمان بأن شريك البيانات سيحترم قرار إلغاء الاشتراك الذي اتخذه المستخدمون، وورد أن أندرو سبيتل، رئيس قسم الذكاء الاصطناعي في شركة Automattic، أجاب قائلاً: “سنطلب حذف المحتوى وإزالته من أي دورات تدريبية مستقبلية، وأعتقد أن الشركاء سيحترمون ذلك بناءً على محادثاتنا معهم حتى هذه اللحظة. لا أعتقد أنهم سيكسبون الكثير بشكل عام من خلال الاحتفاظ به.
ولوحظ أن الرد غامض ولا يؤكد ما إذا كان لدى شركة Automattic اتفاق بشأن ذلك، وفقًا للتقرير. علاوة على ذلك، يبدو أن خط التفكير بأكمله يعتمد على افتراض أن شركات الذكاء الاصطناعي لن تكسب الكثير من خلال الاحتفاظ ببيانات المستخدم. تجدر الإشارة إلى أن ممارسة مشاركة بيانات الطرف الثالث ليست جديدة، وأن معظم منصات التواصل الاجتماعي تمتلك حقوق المحتوى العام الذي ينشئه المستخدمون على المنصة. ومع ذلك، فإن عقد مثل هذه الصفقات دون الكشف عنها للمستخدمين قد يؤدي إلى كشف معلومات خاصة للشركات التي تستخدم نفس البيانات لتدريب أنظمة الذكاء الاصطناعي.
اكتشاف المزيد من نص كم
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.