فيديو

جدول المحتويات:

Anonim

"لقد قمنا بتدريب نموذج التعلم الآلي مع الأداء العالي. ومع ذلك ، لم ينجح الأمر ولم يكن مفيدًا من الناحية العملية. "لقد سمعت هذه الجملة عدة مرات ، وفي كل مرة كنت حريصة على معرفة السبب. قد يكون هناك أسباب مختلفة لفشل النموذج في العمل. نظرًا لأن هذه المشكلات لا يتم تناولها عادةً في دورات علوم البيانات ، ففي هذه المقالة أعالج أحد الأخطاء الشائعة في تصميم نموذج التعلم الآلي ونشره.

في بقية هذه المقالة ، أولاً ، سأناقش الخلط بين الارتباط والسبب الذي يؤدي إلى إساءة استخدام نماذج التعلم الآلي. سأوضح النقاش مع مثال. بعد ذلك ، يتم عرض إمكانيات مختلفة بين مدخلات ومخرجات النموذج. أخيرًا ، أقدم بعض الاقتراحات لتجنب هذا الخطأ.

العلاقة لا السببية

يمكن أن يؤدي عدم فهم العلاقة السببية إلى نتائج خاطئة. مثال على الخلط بين الارتباط والسبب هو تحليل Freakonomics الذي أرسلت فيه إلينوي كتبًا للطلاب لأن التحليل كشف أن الكتب المتوفرة في المنزل ترتبط ارتباطًا مباشرًا بعلامات اختبار عالية. ومع ذلك ، فإن الواقع هو أن المنازل التي يشترى فيها الآباء عادةً الكتب تحتوي على بيئة تعليمية مبهجة. كشف تحليل آخر أن الطلاب من المنازل الذين لديهم العديد من الكتب كان أداؤهم أفضل في أكاديميتهم حتى لو لم يسبق لهم قراءة الكتب. في الواقع ، لم يكن الحصول على علامات أعلى تأثيرًا على الكتب ، ولكن كلاهما ناتج عن البيئة.

العودة إلى موضوعنا ، بعد تطوير نموذج ، لا يمكنك معالجة معلمات الإدخال (الميزات) لمعرفة التأثير على الإخراج. السبب هو أن ميزة الإدخال يمكن أن يكون لها تأثير في المخرجات وأنها ليست بالضرورة سبب الإخراج. ما يخبرك به نموذج التعلم الآلي عالي الأداء هو وجود علاقة بين المدخلات والمخرجات. لا يمكنك ضبط المدخلات للحصول على المخرجات المطلوبة ثم تقديم التوصيات بناءً على المدخلات المعدلة.

مثال

فيما يلي مثال على تطوير نموذج الانحدار ، لكن النموذج يوفر تنبؤًا / توصية خاطئة. افترض أن لدينا درجة الحرارة الخارجية ودرجة حرارة الغرفة. يمكننا تطوير نموذج الانحدار الخطي لتقدير درجة الحرارة الخارجية بناءً على درجة حرارة الغرفة.

T (خارجي) = C1 * T (من الداخل) + C2

أين C1 و C2 هي المعاملات المستمرة المستمدة من البيانات. افترض أن هذا النموذج يتمتع بأداء عالٍ للغاية (على سبيل المثال أكثر من 99٪).

من خلال العمل مع النموذج ، نكتشف أنه إذا زادت درجة الحرارة الداخلية بمقدار 5 درجات مئوية ، فستزيد درجة الحرارة الخارجية بمقدار 10 درجات مئوية. هل يمكننا شراء سخان للغرفة وزيادة درجة الحرارة الداخلية للاستمتاع بيوم دافئ ؟؟ !! بالطبع لا. السبب هو أن درجة الحرارة الداخلية هي التأثير وليس السبب. يمكن أن يحدث نفس الشيء عندما يتعامل عالم البيانات مع مدخلات النموذج (مثل درجة الحرارة الداخلية) للحصول على المخرجات المطلوبة (مثل درجة الحرارة الخارجية). التوصيات القائمة على معالجة المدخلات عادة ما تكون عديمة الفائدة في الممارسة العملية.

المدخلات والمخرجات العلاقة

الآن ، دعونا نرى الحالات المختلفة عندما يكون هناك ارتباط بين إحدى الميزات ا والإخراج ب . توضح الأشكال التالية حالات مختلفة.

من الواضح أنه في الحالات 2 و 3 و 4 ، يكون ناتج النموذج من أجل قيمة التلاعب به ا يختلف عما نراه في العالم الحقيقي. تجدر الإشارة إلى أنه حتى في الحالة 1 ، قد يكون الإخراج مختلفًا بسبب ا قد يكون هناك بعض الارتباط مع مدخلات أخرى من النموذج. وهذا يعني عندما تكون قيمة ا التغييرات المدخلات الأخرى سوف تتغير أيضا. لذلك ، ليس صحيحًا تغيير ميزة واحدة فقط من ميزات الإدخال والتحقق من تأثيرها.

كيفية تجنب؟

أولاً ، كن على علم بهذه المشكلة. يجب أن تدرك أنه من خلال معالجة المدخلات ، لا يمكنك التنبؤ بالإخراج. حفظ هذا الأمر في عقلك سيؤثر على كيفية تصميم النموذج الخاص بك وكيفية اختيار العقود المستقبلية.

ثانيًا ، إذا كنت ترغب في تصميم نموذج تنبؤ ، فستحتاج إلى الحصول على البيانات التاريخية التي تخبر النموذج الخاص بك عن تأثير تغيير المدخلات. من خلال الحصول على لقطات ، لا يمكنك التنبؤ بما سيحدث إذا تغير أحد المدخلات. في هذه الحالة ، يمكنك تدريب النموذج بناءً على البيانات التاريخية. في مثالنا ، عندما نريد أن نرى تأثير درجة حرارة الغرفة على درجة الحرارة الخارجية ، نحتاج إلى بعض العينات التي تتضمن تغييرات في درجة الحرارة الداخلية وتأثيراتها على درجة الحرارة الخارجية (على سبيل المثال بعد 1 ساعة). في هذه الحالة ، يتعلم النموذج أن درجة حرارة الغرفة ليس لها أي تأثير على درجة الحرارة الخارجية.

ثالثًا ، استخدم معرفة مجالك أو تحدث إلى الخبراء ومعرفة ما إذا كانت نتائج التنبؤ / التوصية الخاصة بك منطقية أم لا. هذا يؤدي إلى تجنب ليس فقط هذا الخطأ ولكن الأخطاء المنطقية الأخرى. على سبيل المثال ، قد يكون هناك بعض الأخطاء في الترميز التي لا تعرفها. يمكن أن يساعدك التدقيق المنطقي في التحقق من صحة النموذج بشكل عام.

استنتاج

يعد تصميم نموذج التعلم الآلي مهمة صعبة. قد لا يعمل النموذج في الممارسة على الرغم من أنه يحتوي على أداء عالٍ في بيانات التدريب. في هذه المقالة ، ناقشت سوء استخدام نموذج التعلم الآلي الذي يؤدي إلى عدم عمل التنبؤات في الواقع الفعلي. يمكن أن تكون الأسباب الأخرى ملائمة ، وعينات مكررة ، وبيانات غير متحيزة. من الجيد دائمًا استخدام معرفة مجالك أو التحدث إلى بعض الخبراء ومعرفة ما إذا كانت نتائج التنبؤ / التوصية الخاصة بك منطقية أم لا.

إذا كان لديك أي سؤال أو تعليق فلا تتردد في ترك تعليقاتك أدناه أو يمكنك دائمًا الوصول إلي على LinkedIn.

موصى به اختيار المحرر