Чому б не використовувати більше 3 прихованих шарів для класифікації MNIST?

Багато робіт використовують 2-х приховані шари нейронні мережі для класифікації наборів рукописних цифр MNIST.

Для підвищення точності використовувались інші методи (відсів, відтворення та ін.), Без збільшення кількості прихованих шарів.

Чи є підстави не використовувати більше трьох прихованих шарів? наприклад, переобладнання?

3

1 Відповіді

Емпірично, при додаванні шарів, продуктивність мережі незначно збільшується для повноприєднаної мережі на MNIST, але ви можете , ймовірно, знайти способи покращити її в мережах з 3+ прихованими шарами, такими як збільшення даних (наприклад, варіації всіх входів перекладені + -0..2 пікселів у х і у, приблизно в 25 разів від початкового розміру даних, як початок).

Я не думаю, що ця ідея дуже далеко на практиці, тому що CNN пропонують набагато краще підвищення продуктивності для необхідних зусиль. Ви досягли точки зниження прибутку раніше з базовим MLP (близько 96-97% точності), ніж можна легко досягти за допомогою CNN (близько 99% точності).

Теоретичні основи цієї різниці не є очевидними для мене, але дуже ймовірно, так це пов'язано з переборщими. Розподіл ваги та об'єднання ресурсів в CNN - це дуже ефективний спосіб обробки даних зображень для виконання завдань класифікації та дозволяє уникнути надмірного встановлення, зменшуючи кількість параметрів, одночасно повторно використовуючи параметри для завдання таким чином, щоб це було дуже корисним враховуючи характер вхідних даних.

1
додано
Я хотів би додати, що MNIST є дуже "легким" завданням, дані дуже чисті і легко узагальнюються, воно лежить на дуже маломірному різноманітті, що зменшує потребу в дуже глибоких шарах. Тим не менш, я думаю, підірвати кількість повністю з'єднаних, щільних шарів і додати дуже сильну регуляризацію, може призвести до кращої продуктивності, близькою до CNN.
додано Автор Adisak, джерело
@JanvanderVegt: Просто нагромадження регуляризації до глибокої повністю підключеної мережі не буде узагальнювати, а CNN в завданнях зображень, вам також буде потрібно лот збільшення даних. Узагальнення CNN частково є ефектом регуляризації (через загальний ваг), але структурна відповідність цієї проблеми також є її великою частиною.
додано Автор Jeff Ferland, джерело
Дякую вам за ваші коментарі. Однак мені цікаво, чому точність 2-прихованого шару краще, ніж нейронна мережа 3-х прихованих шарів. Це те, що я пережив. Навіть якщо я не додавав методи регуляризації, я не знаю причин зменшення точності. Я думаю, що це не проблема переобладнання, оскільки помилка навчання та помилка перевірки аналогічні.
додано Автор richud.com, джерело