فيديو

جدول المحتويات:

Anonim

معضلة الاستكشاف والاستغلال هي إحدى تلك الديناميات التي تنظم خوارزميات التعلم المعززة. كيفية تحقيق التوازن بين مقدار ما يجب على الوكيل استكشاف بيئة مقابل كيفية تنفيذ إجراءات محددة وتقييم المكافأة؟ في سياق التعلم المعزز ، يُنظر إلى الاستكشاف والاستغلال على أنهما قوى معاكسة تقيد الفضول في نموذج المكافأة. ومع ذلك ، كما هو الحال في الإدراك البشري ، يؤدي الفضول في عوامل التعلم المعززة إلى معرفة قوية ، فكيف يمكننا تشجيع الفضول دون معاقبة العوامل؟ هذا هو موضوع ورقة بحثية حديثة نشرتها Google Research والتي تقدم طريقة لإثارة الفضول في وكلاء التعلم المعزز.

تعتمد معظم خوارزميات التعلم المعزز على نموذج مكافأة منظم يفترض وجود مجموعة كثيفة من المكافآت التي يمكن ربطها بتصرفات الوكيل. ومع ذلك ، تعتمد العديد من البيئات في العالم الحقيقي على مكافآت متفرقة لا يمكن تكيفها بسهولة مع ميكانيكا التعلم المعززة. فكر في سيناريو يحتاج فيه عامل التعلم المعزز إلى العثور على كتاب محدد في بيئة مكتبة. لا يمكن للوكيل البحث والبحث إلا أن الكتاب لا يمكن العثور عليه ولا توجد مكافأة واضحة عن إجراء محدد. بيئات المكافآت المتناثرة تنتج تحديًا سيئًا بالنسبة لوكلاء التعلم المعززين حيث يجبرون على استكشاف البيئة باستمرار دون مكافأة واضحة. في تلك البيئات ، يكون "فضول" عوامل التعلم المعزز ضروريًا للحصول على وظيفة مكافأة مناسبة. بمعنى آخر ، هناك علاقة مباشرة بين تكافؤ المكافأة والفضول في بيئات التعلم المعززة.

الفضول مقابل المماطلة

كان موضوع الفضول في التعلم التعزيز مجال نشط للبحث. تهدف معظم تركيبات فضول التعلم المعزز إلى تعظيم "المفاجأة" أو عدم القدرة على التنبؤ بالمستقبل. يستمد هذا النهج الإلهام من نظرية الفضول العصبية ولكنه أثبت أنه غير فعال نسبيًا في نماذج التعلم المعزز. تملي جوهر عدم الكفاءة من خلال حقيقة أن تعظيم الفضول الذي لا يرتبط مباشرة بالمهمة المستهدفة يمكن أن يؤدي إلى التسويف. اسمحوا لي أن أشرح هذه الحقيقة المزعجة 😉

دعونا نأخذ مثال البيئة التي يتم فيها وضع عامل تعلم التعزيز في متاهة ثلاثية الأبعاد. هناك هدف ثمين في مكان ما في المتاهة من شأنه أن يعطي مكافأة كبيرة. الآن ، يتم إعطاء الوكيل أيضًا جهاز تحكم عن بعد لجهاز تلفزيون ويمكنه تبديل القنوات. يعرض كل مفتاح صورة عشوائية (على سبيل المثال ، من مجموعة ثابتة من الصور). سوف تفرح تركيبات الفضول التي تحسن المفاجأة لأن نتيجة إجراء تبديل القناة لا يمكن التنبؤ بها. سيبقى الوكيل أمام التلفزيون إلى الأبد بدلاً من محاولة حل المهمة المستهدفة.

المعضلة واضحة: يجب أن تزيد نماذج التعلم المعزز من الفضول فقط إذا كانت تفضي إلى الهدف النهائي. ومع ذلك ، كيف يمكننا معرفة الخطوات الاستكشافية المرتبطة بالمهام المستهدفة مقابل تلك التي ليست كذلك. تتعامل Google مع هذه التحديات من خلال اقتراح طريقة تسمى Episodic Curiosity.

الفضول العرضي

إن ابتكار Google لمعالجة احتكاك الفضول والمماطلة في تعلم التعزيز يكمن في تقديم فكرة الجهد. في الأساس ، تقترح طريقة الذاكرة العرضية إعطاء مكافأة فقط لتلك الملاحظات التي تتطلب بعض الجهد للوصول إلى تجنب "سلوكيات الانغماس في الذات". باتباع مثال maze-tv ، بعد تغيير القنوات لفترة من الوقت ، ستنتهي جميع العروض في الذاكرة. وبالتالي ، لن يكون التلفزيون جذابًا بعد الآن: حتى لو كان ترتيب العروض الظاهرة على الشاشة عشوائيًا ولا يمكن التنبؤ به ، فكل هذه العروض موجودة بالفعل في الذاكرة! سوف يفحص عميل الذاكرة العرضية الماضي لمعرفة ما إذا كان قد رأى ملاحظات مماثل إلى الحالة الحالية وفي هذه الحالة لن تحصل على أي مكافأة. بعد بضع مرات من التكرار على التلفزيون ، لن يتم جذب عامل الذاكرة العرضية إلى هذا الحد مما سيضطر إلى الذهاب واستكشاف العالم خارج التلفزيون للحصول على مكافآت إضافية. يبدو ذكي هاه؟

تربط طريقة الذاكرة العرضية الفضول بإمكانية الوصول. يبدأ العامل بذاكرة فارغة في بداية الحلقة وفي كل خطوة يقارن الملاحظة الحالية بالملاحظات الموجودة في الذاكرة لتحديد الجدة. إذا كانت الملاحظة الحالية جديدة بالفعل - تتخذ خطوات أكثر للوصول من الملاحظات في الذاكرة أكثر من العتبة - يكافئ العامل نفسه بمكافأة ويضيف الملاحظة الحالية إلى الذاكرة العرضية. تستمر العملية حتى نهاية الحلقة ، عندما يتم مسح الذاكرة نظيفة.

بنية الشبكة العصبية للفضول العرضي

لتنفيذ إمكانات الذاكرة العرضية في عوامل التعلم المعززة ، اعتمدت Google على بنية تجمع بين شبكتين عصبيتين ومخزن مؤقت للذاكرة العرضية ووحدة تقدير للمكافآت كما هو موضح في الرسم البياني التالي:

دعونا نلقي نظرة على المكونات الفردية في بنية الذاكرة العرضية:

· التضمين وشبكات المقارنة: الغرض من هاتين الشبكتين هو التنبؤ بإمكانية الوصول لملاحظة معينة بالنظر إلى ملاحظة إدخال أخرى. على وجه التحديد ، تعتمد كلتا الشبكتين على بنية تُعرف باسم R-Network وهي عبارة عن مصنف تم تدريبه على فقدان الانحدار اللوجستي: وهي تتنبأ بقيم قريبة من 0 إذا كانت احتمالية الوصول إلى ملاحظتين من بعضهما البعض في خطوات k منخفضة وقيم قريبة من 1 عندما يكون هذا الاحتمال كبيرًا.

· ذاكرة التخزين المؤقت العرضي: يقوم المخزن المؤقت للذاكرة العرضية بتخزين إدخالات الملاحظات السابقة من الحلقة الحالية بحيث يمكن تقييمها مقابل ملاحظات محددة.

· وحدة تقدير المكافآت: الغرض من هذه الوحدة هو التحقق من الملاحظات القابلة للوصول في الذاكرة وما لم يتم العثور على أي منها. بشكل أساسي ، يتحقق هذا النموذج من التأكد من عدم إمكانية الوصول إلى أي ملاحظة في الذاكرة من خلال اتخاذ بعض الإجراءات من الحالة الحالية ، وبالتالي تشجيع الفضول.

الذاكرة العرضية في العمل

قامت Google باختبار نموذج التعلم المعزز للذاكرة في سلسلة من البيئات المرئية مثل ViZDoom و DMLab وكانت النتائج رائعة. في تلك البيئات ، تم تكليف الوكيل بمشاكل مختلفة مثل البحث عن هدف في متاهة أو جمع الخير وتجنب الأشياء السيئة. إن بيئة DMLab تزود الوكيل بأداة خيال علمي تشبه الليزر. كان الإعداد القياسي في العمل السابق على DMLab هو تزويد الوسيط بهذه الأداة الذكية لجميع المهام ، وإذا كان الوكيل لا يحتاج إلى أداة ذكية لمهمة معينة ، فلا يحق لك استخدامه. إن قلة المكافآت تجعل هذه البيئات صعبة للغاية بالنسبة لمعظم طرق تعلم التعزيز التقليدية. عند تكليفه بالبحث عن عنصر ذي فائدة عالية في المتاهة ، فإنه يفضل بدلاً من ذلك قضاء الوقت في وضع علامات على الجدران لأن هذا يعطي الكثير من المكافآت "المفاجئة".

في نفس البيئات ، تمكن عامل الذاكرة العرضي من التنقل بفعالية عبر المتاهة من خلال زيادة الفضول عن طريق المكافآت التي تتطلب بعض الجهد.

توضح الرسوم المتحركة التالية كيف يشجع وكيل الذاكرة العرضية المكافآت الإيجابية (الخضراء) بدلاً من المكافآت السيئة (الحمراء) مع الحفاظ على مخزن مؤقت للمواقع التي تم استكشافها في الذاكرة (الأزرق).

تعد طريقة الذاكرة العرضية واحدة من أكثر الطرق المبتكرة التي رأيتها لتشجيع الفضول في تعزيز عامل التعلم. نظرًا لأن التعلم المعزز يصبح أكثر شيوعًا في أنظمة الذكاء الاصطناعي ، يجب أن تصبح طرق مثل الذاكرة العرضية مكونًا مهمًا في هذه الهياكل.

موصى به اختيار المحرر