Мы определяем архитектуру узких мест как тип, найденный в статье ResNet, где [два конвексных слоя 3x3] заменяются на [один конв 1x1, один конв 3x3 и еще один слой конвекс 1x1].
Я понимаю, что конвексные слои 1x1 используются как форма уменьшения размеров (и восстановления), что объясняется в другом посте . Однако мне неясно, почему эта структура столь же эффективна, как и оригинальная компоновка.
Вот несколько хороших объяснений: какая длина шага используется и на каких слоях? Каковы примерные входные и выходные размеры каждого модуля? Как карты характеристик 56x56 представлены на диаграмме выше? Относится ли 64-й к количеству фильтров, почему это отличается от 256-дневных фильтров? Сколько весов или флопов используются на каждом слое?
Любая дискуссия с благодарностью!
источник
Ответы:
Архитектура узкого места используется в очень глубоких сетях из-за вычислительных соображений.
Чтобы ответить на ваши вопросы:
Карты характеристик 56x56 не представлены на изображении выше. Этот блок взят из ResNet с размером входа 224x224. 56x56 - уменьшенная дискретизация версии ввода на некотором промежуточном уровне.
64-й относится к числу карт характеристик (фильтров). Архитектура узкого места имеет 256-d, просто потому, что она предназначена для гораздо более глубокой сети, которая, возможно, принимает изображение с более высоким разрешением в качестве входных данных и, следовательно, требует большего количества карт характеристик.
На этом рисунке приведены параметры каждого слоя узкого места в ResNet 50.
источник
Я действительно думаю, что второй пункт в ответе Ньюстейна вводит в заблуждение.
64-d
Или256-d
следует обратиться к числу каналов в входном признаке карты - не количество ввода функции карты.В качестве примера рассмотрим блок «узкое место» (справа от рисунка) в вопросе ОП:
256-d
означает, что у нас есть одна входная карта объектов с измерениемn x n x 256
. На1x1, 64
рисунке обозначены64
фильтры , каждый из которых имеет1x1
и имеет256
каналы (1x1x256
).1x1x256
) с входной картой объектов (n x n x 256
) дает намn x n
вывод.64
фильтры, поэтому, составляя выходы, размер выходной карты объектов равенn x n x 64
.Отредактировано:
источник