Как ядра применяются к картам объектов для создания других карт функций?

44

Я пытаюсь понять сверточную часть сверточных нейронных сетей. Глядя на следующий рисунок:

введите описание изображения здесь

У меня нет проблем с пониманием первого слоя свертки, где у нас есть 4 разных ядра (размером ), которые мы сворачиваем с входным изображением для получения 4 карт характеристик.К×К

Что я не понимаю, так это следующий слой свертки, где мы переходим от 4 карт характеристик к 6 картам характеристик. Я предполагаю, что у нас есть 6 ядер в этом слое (следовательно, дают 6 выходных карт объектов), но как эти ядра работают на 4 картах объектов, показанных в C1? Являются ли ядра трехмерными или они двумерные и реплицированы по 4 картам входных объектов?

utdiscant
источник
1
Я застрял в том же месте. К сожалению, в статье Янна Лекуна это тоже не объясняется - я просматривал несколько PDF-файлов и видео за последние несколько дней, и, кажется, все пропускают эту часть. В работе Янна Лекуна фактически говорится о 6-16 картах объектов с таблицей отображения в слое 2. Первая выходная карта объектов получает входные данные от 0,1,2 входных карт объектов. Но эта выходная карта объектов составляет 10 на 10, а 3 входные карты объектов - 14 на 14. Итак, как это работает? Вы поняли, что происходит? Это 3-D ядро? или это усреднение выходов из местоположения * ядра (свертка)?
Run2

Ответы:

18

Ядра 3-мерные, где можно выбрать ширину и высоту, а глубина равна количеству карт во входном слое - в общем.

Они, конечно, не являются двумерными и реплицируются по всем входным картам объектов в одном и том же 2D-местоположении! Это означало бы, что ядро ​​не сможет различить свои входные объекты в заданном месте, поскольку оно будет использовать один и тот же вес для всех карт входных объектов!

Angelorf
источник
5

Не обязательно однозначное соответствие между слоями и ядрами. Это зависит от конкретной архитектуры. Рисунок, который вы опубликовали, предполагает, что в слоях S2 у вас есть 6 карт объектов, каждая из которых объединяет все карты объектов предыдущих слоев, т.е. различные возможные комбинации объектов.

Без большего количества ссылок я не могу сказать намного больше. Смотрите, например, эту статью

jpmuc
источник
В частности, я смотрю на LeNet-5 и использую этот deeplearning.net/tutorial/lenet.html в качестве справочного материала. Из этой страницы видно, что ядра 3-х мерные, но мне это не на 100% понятно.
Utdiscant
2
Вам необходимо прочитать этот документ ( yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf ). На странице 8 описано, как связаны разные слои. Как я уже говорил, каждый слой в слое объединяет несколько объектов из предыдущего слоя в том же месте.
jpmuc
2
Ссылка мертва.
июля
2

Таблица 1 и раздел 2а «Градиентного обучения применительно к распознаванию документов» Яна ЛеКуна хорошо объясняют это: http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf Не все области свертки 5x5 являются используется для создания 2-го сверточного слоя.

Трэвис Дезелл
источник
0

Эта статья может быть полезна: Понимание свертка в Deep Learning от Тима Dettmers от 26 марта

На самом деле он не отвечает на вопрос, потому что он объясняет только первый слой свертки, но содержит хорошее объяснение основной интуиции о свертке в CNN. Это также описывает более глубокое математическое определение свертки. Я думаю, что это связано с темой вопроса.

Анатолий васильев
источник
1
Добро пожаловать на сайт. Мы пытаемся создать постоянное хранилище высококачественной статистической информации в форме вопросов и ответов. Таким образом, мы опасаемся ответов, содержащих только ссылки, из-за linkrot. Можете ли вы опубликовать полную ссылку и краткое изложение информации по ссылке, если она не работает?
gung - Восстановить Монику
@ Gung, спасибо за уведомление, извините за неправильное понимание концепций. Ситуация такова: эта статья на самом деле не отвечает на вопрос, но когда я искал основную интуицию о CNN, я нашел этот вопрос и надеялся помочь с этой статьей кому-то, кто также ищет основную интуицию и получил этот вопрос. Хорошо, лучше удалить его, да? Спасибо.
Анатолий Васильев
Я думаю, что было бы неплохо сказать: «Эта статья может служить пищей для размышлений, но не дает полного ответа на вопрос», или что-то в этом роде. Здесь вполне может быть ценность. Просто дайте полную цитату и кратко изложите информацию, содержащуюся в случае, если ссылка не работает.
gung - Восстановить Монику
Спасибо за дополнительную информацию. Можете ли вы предоставить полную ссылку на статью (автор, год, название, журнал и т. Д.) И краткую информацию о ее содержании?
gung - Восстановить Монику
@ Да, конечно. Но похоже, что эта статья только в этом блоге, поэтому я не смог найти другую полезную информацию об этом. Спасибо за разъяснение моей точки зрения
Анатолий Васильев