فيديو

جدول المحتويات:

Anonim

في تحليل الصور ، تكون الشبكات العصبية التلافيفية (CNNs أو ConvNets باختصار) فعالة من حيث الوقت والذاكرة من شبكات (FC) المتصلة بالكامل. لكن لماذا؟ ما هي مزايا ConvNets عبر شبكات FC في تحليل الصور؟ كيف يتم اشتقاق ConvNet من شبكات FC؟ من أين جاء مصطلح الإلتواء في CNNs؟ هذه الأسئلة يجب الإجابة عليها في هذه المقالة.

  1. المقدمة

يحتوي تحليل الصورة على عدد من التحديات مثل التصنيف ، والكشف عن الأشياء ، والتعرف عليها ، والوصف ، وما إلى ذلك. إذا كان لابد من إنشاء مصنف صور ، على سبيل المثال ، يجب أن يكون قادرًا على العمل بدقة عالية حتى مع وجود اختلافات مثل الإطباق ، تغيرات الإضاءة ، زوايا المشاهدة ، وغيرها. خط الأنابيب التقليدي لتصنيف الصور مع خطوته الرئيسية في هندسة الميزات غير مناسب للعمل في البيئات الغنية. حتى الخبراء في هذا المجال لن يكونوا قادرين على تقديم واحدة أو مجموعة من الميزات التي يمكنها الوصول إلى دقة عالية في ظل أشكال مختلفة. بدافع من هذه المشكلة ، خرجت فكرة التعلم بالميزات. يتم التعرف على الميزات المناسبة للعمل مع الصور تلقائيًا. هذا هو السبب في أن الشبكات العصبية الاصطناعية (ANNs) هي واحدة من الطرق القوية لتحليل الصور. استنادًا إلى خوارزمية تعلم مثل نزول التدرج اللوني (GD) ، يتعلم ANN ميزات الصورة تلقائيًا. يتم تطبيق الصورة الأولية على ANN وتكون ANN مسؤولة عن إنشاء الميزات التي تصفها.

2. تحليل الصور باستخدام شبكة FC

دعونا نرى كيف يعمل ANN مع الصور ولماذا تعتبر CNN فعالة في متطلبات الوقت والذاكرة الخاصة بها. الصورة الرمادية التالية 3 × 3 في الشكل 1. يستخدم المثال المعطى حجم الصورة الصغير وعدد أقل من الخلايا العصبية للبساطة.

مدخلات طبقة إدخال ANN هي بكسلات الصورة. كل بكسل يمثل مدخلات. نظرًا لأن ANN يعمل مع متجهات 1D ، وليس مصفوفات ثنائية الأبعاد ، فمن الأفضل تحويل الصورة 2D أعلاه إلى متجه 1D كما في الشكل 2.

يتم تعيين كل بكسل إلى عنصر في المتجه. يمثل كل عنصر في ناقل الخلايا العصبية في ANN. لأن الصورة لديها 3X3 = 9 بكسل ، ثم سيكون هناك 9 الخلايا العصبية في طبقة الإدخال. لا يمثل تمثيل المتجه صفًا أو عمودًا ، ولكن ANN عادةً ما يمتد أفقيًا ويتم تمثيل كل طبقة من طبقاته كمتجه عمود.

بعد إعداد إدخال ANN ، يتم بعد ذلك إضافة الطبقة (الطبقات) المخفية التي تتعلم كيفية تحويل وحدات بكسل الصورة إلى ميزات تمثيلية. افترض أن هناك طبقة واحدة مخفية تحتوي على 16 خلية عصبية كما في الشكل 3.

لأن الشبكة متصلة بالكامل ، وهذا يعني أن كل خلية عصبية في طبقة أنا يرتبط بجميع الخلايا العصبية في طبقة ط 1. نتيجة لذلك ، يتم توصيل كل خلية عصبية في الطبقة المخفية بجميع وحدات البكسل التسعة في طبقة الإدخال. وبعبارة أخرى ، يتم توصيل كل بكسل إدخال إلى الخلايا العصبية 16 في الطبقة المخفية حيث كل اتصال لديه معلمة فريدة من نوعها المقابلة. من خلال ربط كل بكسل لجميع الخلايا العصبية في الطبقة المخفية ، سيكون هناك 9x16 = 144 المعلمات أو الأوزان لهذه الشبكة الصغيرة كما هو مبين في الشكل 4.

3. عدد كبير من المعلمات

يبدو أن عدد المعلمات في شبكة FC مقبول. لكن هذا الرقم يزداد بدرجة كبيرة مع زيادة عدد وحدات بكسل الصورة والطبقات المخفية.

على سبيل المثال ، إذا كانت هذه الشبكة تحتوي على طبقتين مخفيتين مع عدد من الخلايا العصبية من 90 إلى 50 ، فإن عدد المعلمات بين طبقة الإدخال والطبقة الأولى المخفية هو 9x90 = 810. عدد المعلمات بين طبقتين المخفية هو 90x50 = 4500. إجمالي عدد المعلمات في هذه الشبكة هو 810+4,500=5,310. هذا هو عدد كبير لهذه الشبكة. حالة أخرى لصورة صغيرة جدًا بحجم 32 × 32 (1024 بكسل). إذا كانت الشبكة تعمل بطبقة واحدة خفية من 500 خلية ، فهناك ما مجموعه 1,024*500=512,000 المعلمة (الوزن). هذا رقم كبير لشبكة ذات طبقة مخفية واحدة تعمل مع صورة صغيرة. يجب أن يكون هناك حل لتقليل هذا العدد من المعلمات. هذا هو المكان الذي تلعب فيه شبكة CNN دورًا مهمًا.يقوم بإنشاء شبكة كبيرة جدًا ولكن مع عدد أقل من المعلمات من شبكات FC.

4. تجمع الخلايا العصبية

المشكلة التي تجعل عدد المعلمات كبيرًا للغاية بالنسبة للشبكات الصغيرة هي أن شبكات FC تضيف معلمة بين كل خليتين في الطبقات المتعاقبة. بدلاً من تعيين معلمة واحدة بين كل خليتين ، قد يتم إعطاء معلمة واحدة إلى كتلة أو مجموعة من الخلايا العصبية كما في الشكل 5. يرتبط البيكسل مع الفهرس 0 في الشكل 3 بأول 4 خلايا عصبية ذات مؤشرات (0 ، 1) و 2 و 3) مع 4 أوزان مختلفة. إذا تم تجميع الخلايا العصبية في مجموعات من 4 كما في الشكل 5 ، فسيتم تعيين معلمة واحدة لجميع الخلايا العصبية داخل نفس المجموعة.

نتيجة لذلك ، سيتم توصيل البيكسل مع مؤشر 0 في الشكل 5 بأول 4 خلايا عصبية بنفس الوزن كما في الشكل 6. يتم تعيين نفس المعلمة لكل 4 خلايا عصبية متتالية. نتيجة لذلك ، يتم تقليل عدد المعلمات بمعامل 4. سيكون لكل خلية عصبية الإدخال 16/4=4 المعلمات. الشبكة بأكملها سوف يكون 144/4=36 المعلمات. هو تخفيض 75 ٪ من المعلمات. هذا جيد ولكن لا يزال من الممكن تقليل المزيد من المعلمات.

يوضح الشكل 7 الاتصالات الفريدة من كل بكسل إلى الخلية العصبية الأولى لكل مجموعة. هذا هو كل الاتصالات المفقودة هي مجرد نسخة مكررة من الاتصالات الحالية. من الناحية الافتراضية ، هناك اتصال من كل بكسل إلى كل خلية عصبية في كل مجموعة كما في الشكل 4 لأن الشبكة لا تزال متصلة بالكامل.

لتبسيطها ، يتم حذف جميع الاتصالات باستثناء الاتصالات بين جميع البكسلات فقط للخلية العصبية الأولى في المجموعة الأولى كما هو مبين في الشكل 8. يبدو أن كل مجموعة لا تزال متصلة بجميع الـ 9 بيكسلات وبالتالي سيكون لها 9 معلمات . من الممكن تقليل عدد البكسلات التي تتصل بها هذه الخلية العصبية.

5. بكسل الارتباط المكاني

التكوين الحالي يجعل كل الخلايا العصبية تقبل جميع بكسل. إذا كانت هناك دالة f (x1 ، x2 ، x3 ، x4) والتي تقبل 4 مدخلات ، فهذا يعني أن القرار يجب أن يتخذ بناءً على كل هذه المدخلات الأربعة. إذا كانت الوظيفة ذات 2 مدخلات تعطي نفس النتائج مثل استخدام جميع المدخلات الأربعة ، فلن نحتاج إلى استخدام كل هذه المدخلات الأربعة. 2 المدخلات إعطاء النتائج المطلوبة كافية. هذا مشابه للحالة أعلاه. كل الخلايا العصبية تقبل جميع 9 بكسل كمدخلات. إذا تم إرجاع النتائج نفسها أو أفضل باستخدام عدد أقل من وحدات البكسل ، فيجب علينا المرور بها.

عادة ، في تحليل الصورة ، يرتبط كل بكسل بدرجة كبيرة بالبكسل المحيط به (أي الجيران). كلما زادت المسافة بين بكسلين ، زاد عدم ارتباطها. على سبيل المثال ، في صورة المصور الموضحة في الشكل 9 ، يرتبط البيكسل داخل الوجه بالبكسلات المحيطة للوجه المحيطة به. لكنها أقل ارتباطًا بالبكسل البعيد مثل السماء أو الأرض.

بناءً على هذا الافتراض ، فإن كل خلية عصبية في المثال أعلاه سوف تقبل فقط وحدات البكسل المرتبطة ارتباطًا مكانيًا مع بعضها البعض لأن العمل عليها جميعًا أمر معقول. بدلاً من تطبيق كل البكسلات الـ 9 على كل خلية عصبية كمدخلات ، يمكن فقط اختيار 4 وحدات بكسل مرتبطة مكانياً كما في الشكل 10. وسيتم تطبيق أول بكسل من الفهرس 0 في متجه العمود الموجود في (0،0) في الصورة كمدخل إلى الخلايا العصبية الأولى مع 3 بكسل الأكثر ارتباطا من الناحية المكانية. استنادًا إلى صورة المدخلات ، تكون البيكسلات الثلاثة الأكثر ارتباطًا من الناحية المكانية بالبكسل هي البيكسلات ذات مؤشرات (0،1) و (1،0) و (1،1). نتيجةً لذلك ، سوف تقبل الخلايا العصبية 4 بكسل فقط بدلاً من 9. لأن جميع الخلايا العصبية في نفس المجموعة تشترك في نفس المعلمات ، فإن الخلايا العصبية الأربعة في كل مجموعة لها 4 معلمات فقط بدلاً من 9. ونتيجة لذلك ، فإن العدد الإجمالي المعلمات ستكون 4x4 = 16. مقارنة بالشبكة المتصلة بالكامل في الشكل 4 ، يوجد انخفاض في المعامل 144–16 = 128 (أي تخفيض 88.89٪).

6. الإلتفاف في CNN

في هذه المرحلة ، يتم الإجابة على سؤال حول سبب كون CNN وقتًا وفعالية أكثر من شبكة FC. يتيح استخدام عدد أقل من المعلمات زيادة CNN عميقًا مع وجود عدد كبير من الطبقات والخلايا العصبية وهو أمر غير ممكن في شبكة FC. التالي هو الحصول على فكرة الإلتواء في سي إن إن.

الآن هناك فقط 4 أوزان مخصصة لجميع الخلايا العصبية في نفس الكتلة. كيف ستغطي هذه الأوزان الأربعة جميع الـ 9 بكسلات؟ دعونا نرى كيف يعمل هذا.

يوضح الشكل 11 الشبكة السابقة في الشكل 10 ولكن بعد إضافة تسميات الأوزان إلى الاتصالات. داخل الخلايا العصبية ، يتم ضرب كل من وحدات البكسل 4 المدخلات بالوزن المقابل. تظهر المعادلة في الشكل 11. وتصور وحدات البكسل والأوزان الأربعة بشكل أفضل مثل المصفوفات كما في الشكل 11. وسيتم تحقيق النتيجة السابقة عن طريق ضرب مصفوفة الأوزان على المجموعة الحالية المكونة من 4 عناصر بكسل. من الناحية العملية ، يجب أن يكون حجم قناع الالتفاف فرديًا مثل 3x3. للمعالجة بشكل أفضل ، يتم استخدام قناع 2x2 في هذا المثال.

بالانتقال إلى الخلية العصبية التالية من الفهرس 1 ، ستعمل مع مجموعة أخرى من البيكسلات المرتبطة مكانيا بنفس الأوزان التي تستخدمها الخلية العصبية مع الفهرس 0. وأيضًا ، ستعمل الخلايا العصبية ذات الفهرس 2 و 3 مع مجموعتين أخريين من البيكسلات المترابطة مكانيًا. يظهر هذا في الشكل 12. يبدو أن أول خلية عصبية في المجموعة تبدأ من البكسل أعلى اليسار واختر عددًا من وحدات البكسل المحيطة بها. آخر الخلايا العصبية في المجموعة تعمل على بكسل أسفل اليمين والبكسل المحيطة بها. يتم ضبط الخلايا العصبية في الفترات الفاصلة بين وحدات البكسل. مثل هذا السلوك مطابق للالتواء. الالتواء بين مجموعة أوزان المجموعة والصورة. هذا هو السبب في CNN لديه مصطلح الإلتواء.

يحدث نفس الإجراء بالنسبة لمجموعات الخلايا العصبية المتبقية. تبدأ الخلايا العصبية الأولى من كل مجموعة من الزاوية العلوية اليسرى والبكسلات المحيطة بها. تعمل الخلية العصبية الأخيرة من كل مجموعة مع الزاوية السفلية اليمنى والبكسلات المحيطة بها. تعمل الخلايا العصبية البينية على البيكسلات البينية.

7 - المراجع

أغدام ، حميد حبيبي ، والنز جهاني حرافي. دليل الشبكات العصبية التلافيفية: تطبيق عملي لكشف وتصنيف إشارات المرور . سبرينغر ، 2017.


تم نشر هذه المقالة في الأصل على ينكدين على هذه الصفحة.

وهو متاح أيضا على SlideShare كملف PDF للتحميل.


للاتصال بالمؤلف:

أحمد فوزي جاد: http://www.linkedin.com/in/ahmedfgad [email protected]

موصى به اختيار المحرر