فيديو

جدول المحتويات:

Anonim

تعد معضلة الاستكشاف مقابل الاستغلال أحد الموازين الأساسية في تطبيقات تعلم التعزيز العميق. ما مقدار الموارد التي يجب تخصيصها لاكتساب المعرفة التي يمكن أن تحسن الإجراءات المستقبلية مقابل أداء إجراءات محددة؟ هذا هو واحد من الاستدلال الرئيسية التي تحكم سلوك نظم التعلم التعزيز. من الناحية النظرية ، ينبغي أن يؤدي الاستكشاف الأمثل دائمًا إلى معرفة أكثر كفاءة ولكن هذا بعيد عن الواقع في العالم الحقيقي. يعد تطوير التقنيات لتحسين استكشاف البيئة أحد التحديات المحورية للجيل الحالي من نماذج التعلم التعزيز العميق. في الآونة الأخيرة ، نشر باحثون من OpenAI ورقة بحثية تقترح مقاربة أصلية للغاية لتحسين القدرة الاستكشافية لخوارزميات التعلم المعززة من خلال إدخال الضوضاء.

لفهم التحدي المتمثل في الاستكشاف في أنظمة التعلم التعزيز العميق ، فكر في الباحثين الذين يقضون عقودًا في المختبر دون تحقيق نتائج مع أي تطبيق عملي. وبالمثل ، يمكن لوكلاء التعلم المعزز إنفاق قدر غير متناسب من الموارد دون إنتاج سلوك يتلاقى مع المستوى الأمثل المحلي. يحدث هذا في كثير من الأحيان أكثر مما تعتقد لأن نموذج الاستكشاف لا يرتبط مباشرة بمكافأة العملية الأساسية. يعتقد فريق OpenAI أن القدرة الاستكشافية لنماذج التعلم التعزيز العميق يمكن أن تتحسن بشكل مباشر عن طريق إدخال مستويات عشوائية من الضوضاء في معايير النموذج. هل يبدو غير بديهي؟ حسنًا ، لا ينبغي. فكر في آخر مرة لتعلم مهارة عملية ، مثل لعبة الألواح ، عن طريق التجربة والخطأ. أنا متأكد من أنه يمكنك تذكر الحالات التي كنت تتحدى فيها شروط البيئة (مثل قواعد اللعبة) من أجل تعزيز معرفتك. هذا يقدم ضوضاء فعالة في مجموعة بيانات الإدخال J.

ليس نهج OpenAI هو الأسلوب الأول الذي يقترح تحسين الاستكشاف عن طريق إدخال الضوضاء في نموذج التعلم العميق. ومع ذلك ، ركز معظم سابقاتها على ما يُعرف بنهج Action-Space-Noise الذي يقدم ضوضاء لتغيير الاحتمالات المرتبطة بكل إجراء قد يتخذه العامل من لحظة إلى أخرى. في هذا النهج ، من المحتمل جدًا الحصول على إجراء مختلف عندما يتم أخذ عينات من هذه الحالة مرة أخرى في النسخة التجريبية ، حيث أن ضوضاء مساحة الإجراء مستقلة تمامًا عن الحالة الحالية. يقترح OpenAI بديلاً ، يسمى Parameter-Space-Noise ، يقدم ضوضاء في معلمات السياسة النموذجية في بداية كل حلقة. تضمن تقنية Parameter-Space-Noise تقريبًا أن نفس الإجراء سيتم تطبيقه في كل مرة يتم فيها نفس الحالة في أخذ عينات من مجموعة بيانات الإدخال التي تعمل على تحسين القدرات الاستكشافية للنموذج.

تعمل تقنية Parameter-Space-Noise بشكل جيد للغاية مع نماذج الاستكشاف الحالية في خوارزميات التعلم التعزيز العميق. مثل بعض سابقاتها ، واجه باحثو OpenAI بعض التحديات

  • طبقات مختلفة من الشبكة لها حساسيات مختلفة للاضطرابات.
  • قد تتغير حساسية أوزان السياسة بمرور الوقت أثناء تقدم التدريب ، مما يجعل من الصعب علينا التنبؤ بالإجراءات التي ستتخذها السياسة.
  • يعد اختيار الحجم الصحيح للضوضاء أمرًا صعبًا لأنه من الصعب فهم مدى تأثير ضوضاء المعلمة على السياسة أثناء التدريب.

تقترح الورقة البحثية حلولاً لمواجهة هذه التحديات باستخدام تقنيات التحسين المعروفة في فضاء التعلم العميق.

أثبتت النتائج الأولية لنموذج Parameter-Space-Noise أنها واعدة حقًا. تساعد هذه التقنية الخوارزميات على استكشاف بيئاتها بشكل أكثر فعالية ، مما يؤدي إلى نتائج أعلى وسلوكيات أكثر أناقة. يبدو أن هذا مرتبط بحقيقة أن المعلمة-الفضاء-الضوضاء تضيف ضوضاء بطريقة متعمدة إلى معايير السياسة مما يجعل استكشاف الوكيل متناسقًا عبر طرائق زمنية مختلفة. والأهم من ذلك ، أن تقنية Parameter-Space-Noise سهلة التنفيذ نسبياً باستخدام الجيل الحالي من أطر التعلم العميقة. أصدر فريق OpenAI تطبيقًا أوليًا كجزء من خطوط التعلم المعززة.

موصى به اختيار المحرر