Я пытаюсь понять сверточную часть сверточных нейронных сетей. Глядя на следующий рисунок:
У меня нет проблем с пониманием первого слоя свертки, где у нас есть 4 разных ядра (размером ), которые мы сворачиваем с входным изображением для получения 4 карт характеристик.
Что я не понимаю, так это следующий слой свертки, где мы переходим от 4 карт характеристик к 6 картам характеристик. Я предполагаю, что у нас есть 6 ядер в этом слое (следовательно, дают 6 выходных карт объектов), но как эти ядра работают на 4 картах объектов, показанных в C1? Являются ли ядра трехмерными или они двумерные и реплицированы по 4 картам входных объектов?
Ответы:
Ядра 3-мерные, где можно выбрать ширину и высоту, а глубина равна количеству карт во входном слое - в общем.
Они, конечно, не являются двумерными и реплицируются по всем входным картам объектов в одном и том же 2D-местоположении! Это означало бы, что ядро не сможет различить свои входные объекты в заданном месте, поскольку оно будет использовать один и тот же вес для всех карт входных объектов!
источник
Не обязательно однозначное соответствие между слоями и ядрами. Это зависит от конкретной архитектуры. Рисунок, который вы опубликовали, предполагает, что в слоях S2 у вас есть 6 карт объектов, каждая из которых объединяет все карты объектов предыдущих слоев, т.е. различные возможные комбинации объектов.
Без большего количества ссылок я не могу сказать намного больше. Смотрите, например, эту статью
источник
Таблица 1 и раздел 2а «Градиентного обучения применительно к распознаванию документов» Яна ЛеКуна хорошо объясняют это: http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf Не все области свертки 5x5 являются используется для создания 2-го сверточного слоя.
источник
Эта статья может быть полезна: Понимание свертка в Deep Learning от Тима Dettmers от 26 марта
На самом деле он не отвечает на вопрос, потому что он объясняет только первый слой свертки, но содержит хорошее объяснение основной интуиции о свертке в CNN. Это также описывает более глубокое математическое определение свертки. Я думаю, что это связано с темой вопроса.
источник