Идея применения фильтров для идентификации чего-либо, например, для идентификации ребер, является довольно крутой идеей
Например, вы можете получить изображение 7. С некоторыми фильтрами вы можете получить преобразованные изображения, которые подчеркивают различные характеристики исходного изображения. Оригинал 7:
может восприниматься сетью как:
Обратите внимание на то, как каждое изображение выделяло разные края оригинала 7.
Это все замечательно, но, скажем, следующий уровень в вашей сети - это уровень Max Pooling.
Мой вопрос, как правило, не кажется ли это немного излишним? Мы просто были очень осторожны и обдумывали определение краев с помощью фильтров - теперь мы больше не заботимся ни о чем из этого, так как мы уничтожили значения пикселей! Пожалуйста, поправьте меня, если я ошибаюсь, но мы перешли с 25 на 25 на 2 на 2! Почему бы тогда не перейти прямо к Max Pooling, разве мы не закончим тем же самым?
Как расширение моего вопроса, я не могу не задаться вопросом, что произойдет, если, по совпадению, каждый из 4 квадратов просто получит пиксель с одинаковым максимальным значением. Конечно, это не редкий случай, верно? Внезапно все ваши тренировочные образы выглядят одинаково.
источник
The pooling operation provides a form of translation invariance
?Свертка - это, в основном, фильтрация изображения с помощью фильтра меньших пикселей, чтобы уменьшить размер изображения без потери соотношения между пикселями (параметрами сети). Пул также уменьшает пространственный размер, извлекая из размера Max, Avg или Sum пикселей. фильтра, однако, он может пропустить важный параметр в процессе, которого достигают свертки, не уменьшая размер значительно.
источник