فيديو

جدول المحتويات:

Anonim

أسبوع آخر ، لعبة أخرى متعددة غزاها الذكاء الاصطناعي (AI). بعد التقدم الذي حققته OpenAI في تدريب وكلاء AI على لعب Dota2 ، أعلنت شركة DeepMind الفرعية التابعة لـ Alphabet للتو عن نظام AI يمكنه التغلب على البشر في Quake III Arena Capture the Flag (QCFT). يمثل الإعلان علامة بارزة أخرى في مجال وكلاء AI التعاونيين الذين يمكنهم التعاون لإنجاز المهام التي تعود بالنفع على مجموعة بدلاً من فرد. ومن المثير للاهتمام أن نموذج DeepMind أظهر القدرة على التعاون مع كل من البشر ووكلاء الذكاء الاصطناعي بصورة غير واضحة. تم التقاط هذه التقنية في ورقة بحثية نشرت الأسبوع الماضي.

من أين يأتي هذا الهوس بالذكاء الاصطناعى مع ألعاب متعددة اللاعبين؟ حسنًا ، توفر الألعاب متعددة اللاعبين مثل QCFT تمثيلات غامرة تحاكي الذكاء الجماعي الذي جعل البشر فريدين في تطور الأنواع. كما هو الحال في المجتمعات الحديثة ، يواجه لاعبو QCFT سيناريوهات تتطلب موازنة القرارات الإستراتيجية والتكتيكية ، والأهداف قصيرة المدى والتخطيط طويل الأجل ومستوى التنسيق مع مختلف اللاعبين. في حالة QCFT ، قواعد اللعبة بسيطة مثل ديناميات معقدة. يتنافس فريقان من اللاعبين الفرديين على خريطة معينة بهدف التقاط علم فريق الخصم مع حماية علاماتهم. لاكتساب ميزة تكتيكية ، يمكنهم وضع علامة على أعضاء فريق الخصم لإرسالهم مرة أخرى إلى نقاط تفرخهم. الفريق الذي يحتفظ بمعظم العلم يلتقط بعد خمس دقائق يفوز.

متعدد وكيل التعلم و FTW

تعرف منطقة التعلم العميق التي تركز على مواجهة التحديات مثل إتقان QCFT باسم التعلم المتعدد الوكلاء. في حالة QCFT ، جمع فريق DeepMind سلسلة من الأفكار الحديثة في مجال التعلم التعزيز (RL):

  • بدلاً من متابعة التدريب الفردي لكل وكلاء ، ركز النموذج على تدريب مجموعة من الوكلاء ، الذين يتعلمون من خلال اللعب مع بعضهم البعض ، وتوفير مجموعة متنوعة من زملائه في الفريق والمعارضين.
  • كل وكيل في السكانيتعلم إشارة المكافأة الداخلية الخاصة به ، والتي تسمح للوكلاء بإنشاء أهدافهم الداخلية الخاصة ، مثل التقاط العلم. تعمل عملية التحسين المكونة من مستويين على تحسين المكافآت الداخلية للوكلاء مباشرةً من أجل الفوز ، وتستخدم التعلم المعزز على المكافآت الداخلية لمعرفة سياسات الوكلاء.
  • يعمل الوكلاء على نطاقين زمنيين ، بسرعة وبطيئة ، مما يحسن من قدرتهم على استخدام الذاكرة وتوليد تسلسل حركة ثابت.

تم تلخيص المبادئ المذكورة أعلاه في الرسم البياني للهندسة الذي أطلق عليه DeepMind بذكاء For the Win (FTW). يتم تمثيل المدخلات إلى نظام FTW بتسلسل زمني من الملاحظات التي تصف البيئة. يعمل النموذج بمقياسين مختلفين ، أسرع في الأسفل ، وأبطأ في الأعلى. يتم أخذ عينات من المتغير العشوائي ذو القيمة المتجهية العشوائية في مقياس الوقت السريع من توزيع الملاحظات. في أي وقت ، يتم تحديث معلمات الشبكة باستخدام تعلم التعزيز بناءً على إشارة المكافأة الداخلية للوكيل والتي يتم الحصول عليها من تحول مستعلم من نقاط اللعبة.

يمكن الاطلاع أدناه على عرض أكثر تفصيلاً للمكونات المختلفة في بنية FTW. يعتمد نموذج DeepMind على الشبكات العصبية التلافيفية (CNN) كمستخرج للميزات المرئية. تتم معالجة المعلومات التي تم إنشاؤها بواسطة CNNs من خلال التسلسل الهرمي الزمني لشبكات الذاكرة طويلة الأجل. كل واحدة من هذه الشبكات تستخدم وظيفة مكافأة محددة. يخضع التسلسل الهرمي لـ LSTM لسياسة متحللة تنظم الإجراءات التي يمكن اتخاذها بناءً على بيانات الإدخال.

FTW في العمل

قام فريق DeepMind باختبار البنية الجديدة في دورة تضمنت 40 لاعبًا بشريًا تمت مواجهتهم بشكل عشوائي ضد عملاء AI كخصوم وزملاء في الفريق. أظهرت النتائج أن لاعبي FTW تجاوزوا بوضوح أداء لاعبي البشر ؛ سواء في عدد من الانتصارات ولكن تم تصنيفهم أيضًا على أنهم أكثر تعاونًا.

أحد الأشياء الأكثر إثارة للإعجاب حول نموذج FTW هو أن الوكلاء لم يتدربوا أبدًا على قواعد لعبة QCFT. بدلاً من ذلك ، تعلم وكلاء FTW من خلال اللعب باستمرار ضد أنفسهم والمفاهيم التي تم تطويرها بسرعة مثل الحدس والذاكرة والانتباه البصري. الأمر الأكثر إثارة للاهتمام هو حقيقة أن عملاء FTW تعلموا سلوكيات أولية مثل متابعة زملائه في الفريق أو التخييم في قاعدة الخصم.

بطريقة تطورية جيدة ، تغيرت أهمية تلك السلوكيات طوال مرحلة التدريب حيث تعلم الوكلاء تحقيق التوازن بين اهتماماتهم الفردية ومصالح زملائهم في الفريق.

من المحتمل أن تلعب طرق التعلم متعددة العوامل دورًا محوريًا في المرحلة التالية من أنظمة الذكاء الاصطناعي. يمكن لبعض التقنيات التي تم استكشافها في ورقة DeepMind أن تضع خط الأساس لتنفيذ أنظمة الذكاء الاصطناعي القادرة على العمل بكفاءة في بيئات معقدة والتعاون مع الآخرين لتحقيق أهدافهم. الأمر الأكثر تشجيعًا هو حقيقة أن نموذج DeepMind أظهر أن أنظمة الذكاء المتعدد العوامل المتعددة قادرة على التعاون بسلاسة مع البشر والتعلم من سلوكهم.

موصى به اختيار المحرر