بقطع خمسة ، سأختار خيارًا عشوائيًا لحوالي واحد من كل 20 قرارًا اتخذتها باستخدام الخوارزمية الخاصة بي. اخترت خمسة كقطع لأنه بدا وكأنه تردد معقول للعشوائية العرضية. بالنسبة إلى المبتدئين ، هناك عمليات تحسين أخرى لتحديد القطع المراد استخدامه ، أو حتى تغيير قيمة القطع مع استمرار التعلم. غالبًا ما يكون أفضل رهان هو تجربة بعض القيم ومعرفة أيها أكثر فاعلية. تتخذ خوارزميات التعلم المعزز أحيانًا إجراءات عشوائية لأنها تعتمد على الخبرة السابقة. قد يعني تحديد الخيار الأفضل المتوقع دائمًا فقدان خيار أفضل لم يتم تجربته من قبل.
كنت أشك في أن هذه الخوارزمية ستحسن حياتي حقًا. لكن إطار التحسين ، المدعوم بالبراهين الرياضية ، والأوراق العلمية المحكمة ، والمليارات من عائدات وادي السيليكون ، كان منطقيًا جدًا بالنسبة لي. كيف ، بالضبط ، يمكن أن ينهار عمليا؟
8:30 صباحا
القرار الأول؟ ما إذا كنت ستستيقظ في الساعة 8:30 كما خططت أم لا. أطفأت المنبه ، وفتحت RNG ، وحبست أنفاسي أثناء دورانها وبصقها … a 9!
الآن السؤال الكبير: في الماضي ، هل أدى النوم في المنزل أو الاستيقاظ في الوقت المحدد إلى نتائج أفضل بالنسبة لي؟ صرخت حدسي بأنني يجب أن أتخطى أي منطق وأن أنام فقط ، ولكن من أجل الإنصاف ، حاولت أن أتجاهله وأحصي ذكرياتي الضبابية عن قيلولة الصباح. فرحة البقاء في السرير كان أكبر من صباح عطلة نهاية الأسبوع غير المستعجلة ، قررت ، طالما لم يفوتني أي شيء مهم.
09:00
كان لدي اجتماع مشروع جماعي في الصباح وبعض قراءة التعلم الآلي للانتهاء قبل أن تبدأ (“Bayesian Deep Learning عبر Subnetwork Inference ،” أي شخص؟) ، لذلك لم أستطع النوم لفترة طويلة. كلفني الـ RNG باتخاذ قرار بناءً على الخبرة السابقة بشأن تخطي الاجتماع ؛ اخترت الحضور. لكي أقرر ما إذا كنت سأقوم بالقراءة ، قمت بالتدحرج مرة أخرى وحصلت على 5 ، مما يعني أنني سأختار بشكل عشوائي بين القيام بالقراءة وتخطيها.
كان هذا قرارًا صغيرًا ، لكنني كنت متوترة بشكل مدهش عندما أعددت رقمًا عشوائيًا آخر على هاتفي. إذا حصلت على 50 أو أقل ، فسوف أتخطى القراءة لتكريم عنصر “الاستكشاف” لخوارزمية صنع القرار ، لكنني لم أرغب في ذلك حقًا. على ما يبدو ، فإن التنصل من قراءتك يكون ممتعًا فقط عندما تفعل ذلك عن قصد.
لقد ضغطت على زر التوليد.
65. كنت أقرأ بعد كل شيء.
11:15 صباحًا
لقد كتبت قائمة بالخيارات لكيفية قضاء فترة الفراغ التي أواجهها الآن. كان بإمكاني السير إلى مقهى بعيد كنت أرغب في تجربته ، أو الاتصال بالمنزل ، أو بدء بعض الأعمال المدرسية ، أو إلقاء نظرة على برامج الدكتوراه للتقدم إليها ، أو الذهاب إلى حفرة أرنب غير ذات صلة بالإنترنت ، أو أخذ قيلولة. جاء عدد كبير من RNG – سأحتاج إلى اتخاذ قرار قائم على البيانات حول ما يجب القيام به.
كان هذا أول قرار في اليوم أكثر تعقيدًا من نعم أو لا، وفي اللحظة التي بدأت فيها بالحيرة حول مدى “تفضيل” كل خيار ، أصبح من الواضح أنه ليس لدي طريقة لعمل تقدير دقيق. عندما يتخذ وكيل الذكاء الاصطناعي الذي يتبع خوارزمية مثل خوارزمية قراراته ، فقد أخبره علماء الكمبيوتر بالفعل بما يعتبر “مفضلًا”. إنهم يترجمون ما يختبره الوكيل إلى درجة مكافأة ، والتي يحاول الذكاء الاصطناعي بعد ذلك تعظيمها ، مثل “الوقت المتبقي في لعبة فيديو” أو “الأموال المكتسبة في سوق الأسهم”. قد يكون من الصعب تحديد وظائف المكافآت. روبوت التنظيف الذكي هو مثال كلاسيكي. إذا طلبت من الروبوت تعظيم قطع القمامة التي تم إلقاؤها بعيدًا ، فيمكنه تعلم طرق سلة المهملات ووضع نفس القمامة بعيدًا مرة أخرى لزيادة نتيجتها.