لماذا قد لا تكون الاختبارات المخصصة للبشر معايير جيدة للماجستير في القانون مثل GPT-4

انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح. يتعلم أكثر

مع استمرار شركات التكنولوجيا في طرح نماذج لغة كبيرة (LLM) بنتائج مبهرة ، أصبح قياس قدراتها الحقيقية أكثر صعوبة. وفقًا لتقرير فني صادر عن OpenAI ، فإن أداء GPT-4 مثير للإعجاب في امتحانات المحامين واختبارات الرياضيات SAT وامتحانات القراءة والكتابة.

ومع ذلك ، قد لا تكون الاختبارات المصممة للبشر معايير جيدة لقياس قدرات LLM. تشمل النماذج اللغوية المعرفة بطرق معقدة ، وتنتج أحيانًا نتائج تطابق أو تتجاوز متوسط الأداء البشري. ومع ذلك ، فإن الطريقة التي يحصلون بها على المعرفة واستخدامها غالبًا ما تكون غير متوافقة مع تلك التي لدى البشر. يمكن أن يقودنا ذلك إلى استخلاص استنتاجات خاطئة من نتائج الاختبار.

بالنسبة إلى LLMs مثل GPT-4 ، يكمن نجاح الاختبار في بيانات التدريب

أرفيند نارايانان ، أستاذ علوم الكمبيوتر بجامعة برينستون ، وساياش كابور ، دكتوراه. مرشح في جامعة برينستون ، كتب مؤخرًا مقالًا عن مشاكل اختبار ماجستير في امتحانات الترخيص المهني.

واحدة من هذه المشاكل هي “تلوث بيانات التدريب”. يحدث هذا عندما يتم اختبار نموذج مدرب على البيانات التي تم تدريبه عليها. مع الكثير من التدريب ، قد يحفظ النموذج أمثلة التدريب الخاصة به ويؤدي أداءً جيدًا فيها ، مما يعطي الانطباع بأنه قد تعلم المهمة. لكنها ستفشل في الأمثلة الجديدة.

حدث

تحويل 2023

انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.

سجل الان

يبذل مهندسو التعلم الآلي جهودًا كبيرة لفصل بيانات التدريب والاختبار. ولكن مع LLMs ، تصبح الأمور صعبة لأن مجموعة التدريب كبيرة جدًا بحيث يصعب التأكد من عدم تضمين أمثلة الاختبار الخاصة بك بطريقة ما في بيانات التدريب.

قال نارايانان لموقع VentureBeat: “يتم تدريب نماذج اللغة بشكل أساسي على كل النصوص الموجودة على الإنترنت ، لذلك حتى لو لم تكن بيانات الاختبار الدقيقة موجودة في مجموعة التدريب ، فسيكون هناك شيء قريب جدًا منها”. “لذلك عندما نجد أن LLM تؤدي أداءً جيدًا في الامتحان أو تحدي البرمجة ، فليس من الواضح مقدار هذا الأداء بسبب الحفظ مقابل التفكير.”

على سبيل المثال، واحد تجربة أظهر أن GPT-4 كان أداؤه جيدًا للغاية في تحديات برمجة Codeforces التي تم إنشاؤها قبل عام 2021 ، عندما تم جمع بيانات التدريب الخاصة بها. انخفض أداؤها بشكل كبير على المشاكل الحديثة. وجد Narayanan أنه في بعض الحالات ، عندما تم تزويد GPT-4 بعنوان مشكلة Codeforces ، يمكن أن ينتج رابط المسابقة حيث ظهرت.

في تجربة أخرى ، اختبرت عالمة الكمبيوتر ميلاني ميتشل أداء ChatGPT في اختبارات ماجستير إدارة الأعمال ، وهو إنجاز تمت تغطيته على نطاق واسع في وسائل الإعلام. وجد ميتشل أن أداء النموذج في نفس المشكلة يمكن أن يختلف اختلافًا كبيرًا عندما تمت صياغة الموجه بطرق مختلفة قليلاً.

“لقد استوعبت LLM نصوصًا أكثر بكثير مما يمكن للإنسان ؛ بمعنى ما ، لقد “حفظوا” (بتنسيق مضغوط) مساحات شاسعة من الويب ، ويكيبيديا ، ومجموعات الكتب ، وما إلى ذلك ، “قال ميتشل لموقع VentureBeat. “عندما يتم إعطاؤهم سؤالاً من الامتحان ، يمكنهم إحضار كل النص الذي حفظوه في هذا النموذج ، ويمكنهم العثور على أنماط” التفكير “الأكثر تشابهًا والتي يمكن تكييفها بعد ذلك لحل السؤال. هذا يعمل بشكل جيد في بعض الحالات ولكن ليس في حالات أخرى. هذا جزئيًا هو السبب في أن بعض أشكال مطالبات LLM تعمل بشكل جيد جدًا بينما البعض الآخر لا يعمل “.

يحل البشر المشاكل بطريقة مختلفة

يبني البشر مهاراتهم ومعارفهم تدريجياً في طبقات من خلال سنوات من الخبرة والدراسة والتدريب. تفترض الاختبارات المصممة للبشر أن المتقدم للاختبار يمتلك بالفعل هذه المهارات والمعرفة التحضيرية ، وبالتالي لا يختبرها جيدًا. من ناحية أخرى ، أثبتت النماذج اللغوية أنها تستطيع اختصار طريقها إلى الإجابات دون الحاجة إلى اكتساب المهارات المطلوبة مسبقًا.

من المفترض أن يحل البشر هذه المشكلات بطريقة مختلفة وأكثر قابلية للتعميم. وبالتالي لا يمكننا وضع الافتراضات الخاصة بـ LLM التي نصنعها للبشر عندما نجريهم الاختبارات ، “قال ميتشل.

على سبيل المثال ، جزء من المعرفة الأساسية لعلم الحيوان هو أن كل فرد يولد ويعيش لفترة ويموت ، وأن طول الحياة هو جزئيًا وظيفة الأنواع وجزئيًا مسألة فرص وتقلبات الحياة ، كما يقول الكمبيوتر عالم وأستاذ جامعة نيويورك إرنست ديفيس.

“اختبار الأحياء لن يطلب ذلك ، لأنه يمكن افتراض أن جميع الطلاب يعرفون ذلك ، وقد لا يطرح أي أسئلة تتطلب في الواقع تلك المعرفة. لكن كان من الأفضل أن تفهم ذلك إذا [you’re going to be] إدارة معمل أحياء أو فناء ، “قال ديفيس لموقع VentureBeat. “المشكلة هي أن هناك معرفة أساسية مطلوبة بالفعل لفهم موضوع معين. هذا بشكل عام لا تم اختباره في الاختبارات المصممة للبشر لأنه يمكن افتراض أن الناس يعرفون [it]. “

يتضح الافتقار إلى هذه المهارات والمعرفة التأسيسية في حالات أخرى ، مثل فحص نماذج اللغة الكبيرة في الرياضيات التي أجراها ديفيس مؤخرًا. وجد ديفيس أن LLM تفشل في مسائل الرياضيات الأساسية جدًا المطروحة في اللغة الطبيعية. هذا بينما تُظهر التجارب الأخرى ، بما في ذلك التقرير الفني حول GPT-4 ، أن LLMs يسجلون درجات عالية في اختبارات الرياضيات المتقدمة.

إلى أي مدى يمكنك الوثوق بـ LLMs في المهام المهنية؟

خلص ميتشل ، الذي اختبر LLMs في امتحانات المحامين وامتحانات كلية الطب ، إلى أن الاختبارات المصممة للبشر ليست طريقة موثوقة لمعرفة قدرات نماذج الذكاء الاصطناعي هذه والقيود المفروضة على مهام العالم الحقيقي.

“هذا لا يعني أن النماذج الإحصائية الضخمة مثل LLMs لا يمكنها أبدًا التفكير مثل البشر – لا أعرف ما إذا كان هذا صحيحًا أم لا ، والإجابة عليه تتطلب الكثير من التبصر في كيفية قيام LLM بما يفعلونه ، وكيف وقال ميتشل “حتى تؤثر على آلياتها الداخلية”. “هذه البصيرة ليست لدينا في الوقت الحاضر.”

قال ميتشل إن ما نعرفه هو أن مثل هذه الأنظمة تصنع أخطاءً يصعب التنبؤ بها ولا تشبه أخطاء البشر ، و “علينا أن نكون حذرين للغاية عندما نفترض أنها تستطيع التعميم بالطرق التي يستطيع البشر القيام بها”.

قال نارايانان إن ماجستير إدارة الأعمال الذي يتفوق في الامتحانات من خلال الحفظ والتفكير السطحي قد يكون جيدًا لبعض التطبيقات ، ولكن لا يمكنه القيام بمجموعة من الأشياء التي يمكن للمحترف القيام بها. هذا صحيح بشكل خاص لامتحانات المحاماة ، التي تبالغ في التركيز على المعرفة بالمادة وتقلل من التركيز على مهارات العالم الحقيقي التي يصعب قياسها بطريقة معيارية يديرها الكمبيوتر.

قال نارايانان: “لا ينبغي أن نقرأ كثيرًا في أداء الامتحان ما لم يكن هناك دليل على أنه يترجم إلى قدرة على القيام بمهام العالم الحقيقي”. “من الناحية المثالية ، يجب أن ندرس المهنيين الذين يستخدمون LLM لأداء وظائفهم. في الوقت الحالي ، أعتقد أن LLM من المرجح أن تزيد المهنيين أكثر من استبدالهم. “

مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.

اكتشاف المزيد من نص كم

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

لماذا قد لا تكون الاختبارات المخصصة للبشر معايير جيدة للماجستير في القانون مثل GPT-4

تلتزم شركة AirTrunk بمبلغ 30 مليار دولار لبناء 5 جيجاوات من مراكز بيانات الذكاء الاصطناعي في الهند

اليوم هو آخر يوم للتقدم للتحدث في Disrupt 2026

بدأ Runway بمساعدة صانعي الأفلام. والآن تريد التغلب على جوجل في مجال الذكاء الاصطناعي.

لدى الرئيس التنفيذي لشركة الذكاء الاصطناعي الجديدة التابعة لشركة Allbirds خطة، ولكن ليس لديه موظفين

الاكتتاب العام لشركة SpaceX: كل ما تحتاج إلى معرفته

تلتزم شركة AirTrunk بمبلغ 30 مليار دولار لبناء 5 جيجاوات من مراكز بيانات الذكاء الاصطناعي في الهند

لماذا قد لا تكون الاختبارات المخصصة للبشر معايير جيدة للماجستير في القانون مثل GPT-4

بالنسبة إلى LLMs مثل GPT-4 ، يكمن نجاح الاختبار في بيانات التدريب

حدث

يحل البشر المشاكل بطريقة مختلفة

إلى أي مدى يمكنك الوثوق بـ LLMs في المهام المهنية؟

اكتشاف المزيد من نص كم

المقالات ذات الصلة

تلتزم شركة AirTrunk بمبلغ 30 مليار دولار لبناء 5 جيجاوات من مراكز بيانات الذكاء الاصطناعي في الهند

اليوم هو آخر يوم للتقدم للتحدث في Disrupt 2026

بدأ Runway بمساعدة صانعي الأفلام. والآن تريد التغلب على جوجل في مجال الذكاء الاصطناعي.

لدى الرئيس التنفيذي لشركة الذكاء الاصطناعي الجديدة التابعة لشركة Allbirds خطة، ولكن ليس لديه موظفين

الاكتتاب العام لشركة SpaceX: كل ما تحتاج إلى معرفته

تلتزم شركة AirTrunk بمبلغ 30 مليار دولار لبناء 5 جيجاوات من مراكز بيانات الذكاء الاصطناعي في الهند

اكتشاف المزيد من نص كم