فيديو

جدول المحتويات:

Anonim

التدريب وتحسين نماذج التعلم العميق هي بعض من أكثر جوانب التحدي في أي حل حديث للذكاء الآلي (MI). في العديد من السيناريوهات ، يستطيع علماء البيانات الوصول بسرعة إلى المجموعة الصحيحة من الخوارزميات لمشكلة معينة فقط لقضاء أشهر لا حصر لها في محاولة للعثور على الإصدار الأمثل للنموذج. في الآونة الأخيرة ، نشر DeepMind ورقة بحثية جديدة تقترح طريقة جديدة للتدريب وتحسين نماذج التعلم العميق المعروفة باسم التدريب القائم على السكان.

يركز تحسين نماذج التعلم العميق التقليدية على تقليل خطأ الاختبار دون تغيير المكونات الأساسية للنموذج بشكل كبير. تتمحور إحدى أهم الأساليب في تحسين التعلم العميق حول ضبط عناصر متجانسة مع النموذج نفسه. تشير نظرية التعلم العميق عادةً إلى هذه العناصر كمعلمات تشعبية. في الماضي ، كنت قد كتبت عن تحسين تقنية hyperparameter وآثارها في برامج التعليم العميق ، لذلك لا أخطط لك بالتفاصيل :). عادة ، تشمل المعلمات الفائقة في برامج التعليم العميق عناصر مثل عدد الوحدات المخفية أو معدل التعلم الذي يمكن ضبطه لتحسين أداء نموذج معين.

إن تحسين المقاييس الفائقة هي لعبة لإيجاد التوازن الصحيح بين أداء وظيفة التعلم العميق وتكلفتها. أصبحت الخوارزميات مثل نزول التدرج العشوائي وتغيراته مركزًا لتحسين التعلم العميق ولكن لا تزال تواجه تحديات كبيرة عند تطبيقها في سيناريوهات واسعة النطاق. عادة ، هناك طريقتان رئيسيتان لتحسين التعلم الفائق بعمق: البحث العشوائي وضبط اليد. في سيناريوهات البحث العشوائي ، يتم تدريب مجموعة من النماذج بشكل مستقل على التوازي وفي نهاية التدريب يتم اختيار الطراز الأعلى أداء. عادةً ما يعني ذلك أن جزءًا صغيرًا فقط من السكان سيتم تدريبهم بمقاييس تشعبية جيدة بينما سيتم تدريب الباقي بأخرى سيئة ، مما يؤدي إلى إهدار موارد الكمبيوتر.

ويستند نهج الصيد اليدوي على عمليات التحسين المتسلسل. ) يتطلب التحسين المتسلسل أن يتم إكمال تشغيل عدة تدريبات (ربما مع إيقاف مبكر) ، وبعد ذلك يتم اختيار معلمات تشعبية جديدة ويتم إعادة تدريب النموذج من البداية باستخدام معلمات تشعبية جديدة. هذه هي عملية متتالية بطبيعتها وتؤدي إلى أوقات طويلة الأمثل المعلمة ، على الرغم من يستخدم الحد الأدنى من الموارد الحسابية.

كما ترون ، هناك مزايا وقيود لكل من تقنيات البحث العشوائي ومطاردة اليد. في الآونة الأخيرة ، نشر فريق DeepMind ورقة بحثية تدافع عن تقنية تحسين جديدة تحاول الجمع بين أفضل الطرق.

تقديم التدريب القائم على السكان

يستخدم التدريب القائم على السكان (PBT) نهجًا مشابهًا للبحث العشوائي عن طريق أخذ عينات عشوائية لمقاييس فرط الوزن وتهيئة الوزن. بشكل مختلف عن النهج التقليدي ، تدير PBT كل تدريب بشكل غير متزامن وتقييم أدائها بشكل دوري. إذا كان أداء النموذج في المجتمع أقل أداءً ، فسيؤدي ذلك إلى زيادة فعالية المجموعة النموذجية واستبدالها بنموذج أفضل. في الوقت نفسه ، تستكشف PBT معلمات تشعبية جديدة عن طريق تعديل معلمات hyperparameters للنموذج الأفضل ، قبل مواصلة التدريب.

تسمح عملية PBT بتحسين المعلمات الفائقة عبر الإنترنت ، وتركز الموارد الحاسوبية على مقياس الوزن الزائد ومساحة الوزن التي تتمتع بفرصة أكبر لتحقيق نتائج جيدة. والنتيجة هي طريقة لضبط المعلمة الفائقة ، وإن كانت بسيطة للغاية ، فإنها تؤدي إلى تعلم أسرع ، وموارد حسابية أقل ، وحلول أفضل غالبًا.

في ورقة البحث ، يطبق فريق DeepMind PBT عبر سيناريوهات مختلفة مثل تعلم التعزيز العميق أو الترجمات الآلية. كانت النتائج الأولية مشجعة للغاية حيث أظهرت PBT تحسينات كبيرة على التقنيات التقليدية.

يمكننا أن نتوقع أن يتم تضمين PBT في أطر التعلم العميق الشعبية قريبًا. هناك تطبيق مبدئي متاح في جيثب ، ويجب أن نرى هذا العمل تم تبنيه بواسطة أطر أخرى قريباً.

موصى به اختيار المحرر