أداوت وتكنولوجيا

النص إلى الفيديو التوليدي AI موجود أخيرًا وهو أمر غريب مثل الجحيم


أنا أحب الذكاء الاصطناعي الخاص بي مثلما أحب أصناف الجبن الأجنبية الخاصة بي ، فهي غريبة بشكل لا يصدق ومليئة بالثقوب ، من النوع الذي يترك معظم تعريفات “جيد” حسب الذوق الفردي. لذلك فاجأني اللون عندما استكشفت الحدود التالية لنماذج الذكاء الاصطناعي العامة ، ووجدت واحدة من أغرب التجارب التي مررت بها منذ إنشاء الذكاء الاصطناعي الغريب سينفيلد توقف عن العمل أو يقتل لا شي للابد تم إطلاق سراحه لأول مرة.

رنواي ، واحدة من اثنين من الشركات الناشئة ساعدنا في تزويدنا بمولد الفن AI Stable Diffusion، يوم الاثنين أن أول اختبار علني لها نموذج فيديو Gen-2 AI سيبدأ البث المباشر قريبًا. قدمت الشركة ادعاءً مذهلاً بأنها كانت “أول نموذج تحويل نص إلى فيديو متاح للجمهور”. لسوء الحظ ، ربما تكون مجموعة أكثر غموضًا مع نموذج تحويل نص إلى فيديو مبدئي أكثر رقة قد تغلبت على Runway.

جوجل و ميتا تعمل بالفعل على مولدات تحويل النص إلى صورة ، لكن لم تكن أي من الشركتين على استعداد لتقديم أي أخبار منذ أن تم إغاظتها لأول مرة. منذ فبراير ، اشتهر الفريق الصغير نسبيًا المكون من 45 شخصًا في Runway بأدوات تحرير الفيديو عبر الإنترنت ، بما في ذلك الفيديو إلى الفيديو. نموذج Gen-1 AI يمكنها إنشاء وتحويل مقاطع الفيديو الحالية بناءً على المطالبات النصية أو الصور المرجعية. يمكن للجيل الأول أن يحول تجسيدًا بسيطًا لشخصية عصا يسبح إلى غواص ، أو يحول رجلًا يمشي في الشارع إلى كابوس من الطين مع تراكب مُنشأ. من المفترض أن يكون Gen-2 هو الخطوة الكبيرة التالية ، مما يسمح للمستخدمين بإنشاء مقاطع فيديو مدتها 3 ثوانٍ من البداية بناءً على مطالبات نصية بسيطة. على الرغم من أن الشركة لم تسمح لأي شخص بوضع يده عليها حتى الآن ، فقد شاركت الشركة بعض المقاطع بناءً على مطالبات مثل “لقطة قريبة للعين” و “لقطة جوية لمنظر طبيعي للجبال”.

قلة من الناس خارج الشركة لديهم قادر على تجربة نموذج Runway الجديد ، ولكن إذا كنت لا تزال تتوق إلى إنشاء فيديو AI ، فهناك خيار آخر. الذكاء الاصطناعي نص إلى نظام فيديو يسمى ModelScope تم إصداره خلال عطلة نهاية الأسبوع الماضية وتسبب بالفعل في بعض الضجة لمقاطع الفيديو المحرجة أحيانًا والتي غالبًا ما تكون مجنونة لمدة ثانيتين. أنشأ مختبر DAMO Vision Intelligence Lab ، وهو قسم أبحاث تابع لشركة Alibaba للتجارة الإلكترونية العملاقة ، النظام كنوع من حالات الاختبار العامة. يستخدم النظام نموذج انتشار أساسيًا جدًا لإنشاء مقاطع الفيديو الخاصة به ، وفقًا للشركة صفحة تصف نموذج الذكاء الاصطناعي الخاص بها.

ModelScope مفتوح المصدر ومتوفر بالفعل على تعانق الوجه، على الرغم من أنه قد يكون من الصعب تشغيل النظام دون دفع رسوم رمزية لتشغيل النظام على خادم GPU منفصل. Tech YouTuber مات وولف لديه برنامج تعليمي جيد حول كيفية إعداد ذلك. بالطبع ، يمكنك المضي قدمًا وتشغيل الكود بنفسك إذا كانت لديك المهارة التقنية و VRAM لدعمها.

ModelScope صارخ جدًا من حيث مصدر بياناته. تحتوي العديد من مقاطع الفيديو التي تم إنشاؤها على مخطط غامض لشعار Shutterstock ، مما يعني أن بيانات التدريب تتضمن على الأرجح جزءًا كبيرًا من مقاطع الفيديو والصور المأخوذة من موقع صور الأسهم. إنها مشكلة مماثلة مع مولدات صور AI الأخرى مثل Stable Diffusion. رفعت Getty Images دعوى قضائية ضد شركة Stability AI، الشركة التي جلبت منشئ فن الذكاء الاصطناعي إلى الضوء العام ، ولاحظت عدد صور الانتشار المستقر التي تخلق نسخة تالفة من علامة Getty المائية.

بالطبع ، لم يمنع ذلك بعض المستخدمين من صنع أفلام صغيرة باستخدام الذكاء الاصطناعي المحرج إلى حد ما ، مثل هذا دارث فيدر البدين الوجوه يزور سوبر ماركت أو الرجل العنكبوت وكابيبارا كفريق واحد لإنقاذ العالم.

بقدر ما يذهب Runway ، تتطلع المجموعة إلى صنع اسم لنفسها في عالم أبحاث الذكاء الاصطناعي المزدحم أكثر من أي وقت مضى. في بهم ورق واصفا جيلها الأول قال باحثو Runway إن نموذجهم مدرب على كل من الصور ومقاطع الفيديو لـ “مجموعة بيانات واسعة النطاق” مع بيانات صور نصية إلى جانب مقاطع فيديو غير مصحوبة بتعليقات. وجد هؤلاء الباحثون أن هناك ببساطة نقصًا في مجموعات بيانات نصوص الفيديو بنفس جودة مجموعات بيانات الصور الأخرى التي تعرض صورًا مأخوذة من الإنترنت. هذا يجبر الشركة على اشتقاق بياناتها من مقاطع الفيديو نفسها. سيكون من المثير للاهتمام أن نرى كيف تتراكم نسخة Runway الأكثر صقلًا من تحويل النص إلى فيديو ، خاصةً بالمقارنة عندما يعرض الضاربون الكبار مثل Google المزيد من مقاطع الفيديو السردية الأطول.

إذا كانت قائمة انتظار Gen-2 الجديدة في Runway تشبه تلك الخاصة بـ Gen-1 ، فيمكن للمستخدمين أن يتوقعوا الانتظار بضعة أسابيع قبل أن يضعوا أيديهم بالكامل على النظام. في غضون ذلك ، قد يكون اللعب باستخدام ModelScope خيارًا أولًا جيدًا لأولئك الذين يبحثون عن تفسيرات أكثر غرابة للذكاء الاصطناعي. بالطبع ، هذا قبل أن نحصل على نفس المحادثات حول مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي والتي نقوم بها الآن حول الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

الشرائح التالية هي بعض محاولاتي لمقارنة Runway بـ ModelScope وأيضًا اختبار حدود ما يمكن أن يفعله النص على الصورة. لقد قمت بتحويل الصور إلى تنسيق GIF باستخدام نفس المعلمات في كل منها. يقترب معدل الإطارات في ملفات GIF من مقاطع الفيديو الأصلية التي تم إنشاؤها بواسطة AI.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى