Чому це не звичайна згортка?

Зараз я вивчаю цей документ (сторінка 53) запропонувати згортку зробити особливим чином.

Це формула:

begin {equation} {1} label {1} q_ {j, m} = sigma ліворуч (sum_i sum_ {n = 1} ^ {F} o_ {i, n + m-1}) cdot w_ {i, j, n} + w_ {0, j} \ end (рівняння)

Ось їх пояснення:

Як показано в Рис. 4.2 , усі карти вхідних даних (припустимо, I в цілому), $ O_i (i = 1, · · ·, I) $ відображаються в ряд карт властивостей (припустимо, $ J $ в цілому), $ Q_j (j = 1, · · ·, J) $ в шарах згортки, заснованих на ряді локальних фільтрів ($ I × J $ в цілому), $ w_ {ij} $ $ (i = 1, · · ·, I j = 1, · · ·, J) $. Відображення може бути представлено як відома операція згортки при обробці сигналів. Припускаючи, що вхідні карти властивостей є одновимірними, кожна одиниця однієї карти об'єкта в шарі згортки може бути обчислена як рівняння $ eqref {1} $ (вище рівняння).

де $ o_ {i, m} $ є $ m $ -гою одиницею $ i $ -го вхідної карти об'єкта $ O_i $, $ q_ {j, m} $ є $ m $ - одиниця $ j $ -го відображення $ Q_j $ шару згортки, $ w_ {i, j, n} $ є $ n $ -гом ваговим вектором, $ w_ {i, j} $, зв'язуючи карту властивостей $ i $ th з входом з картою характеристик $ j $ th шару згортки, і $ F $ називається розміром фільтра, який є кількістю вхідних смуг, які отримує кожна одиниця шару згортки.

Все йде нормально:

Те, що я в основному зрозумів з цього, я намагався проілюструвати на цьому зображенні.

enter image description here

Мені здається, що вони роблять, фактично обробляючи всі точки даних до F, і по всіх картах характеристик. В основному рухаючись в обох напрямках x-y, і обчислюємо на цьому пункті.

Хіба це не 2d-згортка на 2d-зображенні розміру $ (I x F) $ з фільтром, що дорівнює розміру зображення ?. Вага, здається, не відрізняється взагалі від будь-якого значення тут ..?

6

1 Відповіді

It's analogous to an extremely specific convolution step on a 2D image. That is, it's analogous to an $N \times I$ image with one feature map (e.g. a black & white image, if we're talking about the input), and you choose to use $J$ filters of size $F \times I$ which spans the entire width of the image and only strides along the length to create $J$ feature maps of size $(N - F + 1) \times 1.$ The restrictions here are that:

- "Зображення" (або поточний шар, над яким ви працюєте) обов'язково має лише одну карту об'єктів

- Фільтри охоплюють всю ширину зображення, тому вони не рухаються по цьому напрямку, а отримані карти мають ширину $ 1.

Потім ви могли б повторно інтерпретувати $ (N-F + 1): 1 $ виводяться карти об'єктів у вигляді єдиного $ (N-F + 1) зображення J $, яке потім створює ті ж самі обмеження для наступного згортання (або більше обмежень, якщо ви робите об'єднання).

Так, так, аналогія є, але це тільки аналог дуже обмеженого класу згортки на масивах 2D зображень, що, на мою думку, не дуже корисно. Застосовується для чорно-білих зображень, для яких ви не дбаєте про інваріантність перекладу по одному з розмірів.

Причина того, що CNNs на зображеннях набагато гнучкіші, ніж ця аналогія дозволяє, тому що вхідні об'єкти (і кожен відповідний прихований шар) зображення CNN є 3D-масивом, а не 2D-масивом, як це є в даному випадку. Третій вимір - це особливі карти (наприклад, значення RGB для вхідного зображення). Тоді ви можете дозволити фільтру будь-якого розміру в обох розмірах і рухатися по обох напрямках. Я б вважав за краще зберегти інтерпретацію тексту, коли мова йде про 2D входи CNN.

1
додано
Я не знаю, що ви маєте на увазі, коли ви говорите "Ця реалізація повинна поділитися своєю вагою". Єдиний вид "розподілу ваги", що відбувається в CNN, коли один фільтр рухається вздовж зображення. Таким чином, вага, який з'єднує піксель в одному зображенні з пікселем в наступному зображенні, є таким же, як вага, який з'єднує сусід пікселя в першому зображенні з сусідом пікселя другого зображення. Ваша вага як і раніше виражається як 3D масив унікальних значень (або 4D масив унікальних значень у 2D зображенні CNN).
додано Автор Farinha, джерело
Приклад для прикладу 1d, але також може бути застосований для прикладу 2d .. (Додавання додаткового підсумовування). Але не могли б ви розробити трохи на ваговій матриці. Ця реалізація повинна, відповідно до статті, поділитися своєю вагою, але вона більше схожа на те, щоб вага унікальна для кожної обробки?
додано Автор zloster, джерело