Почему CNN заканчиваются слоями FC?

11

Насколько я понимаю, CNN состоят из двух частей. Первая часть (слои conv / pool), которая выполняет извлечение объектов, и вторая часть (слои fc), которая выполняет классификацию по объектам.

Поскольку полностью связанные нейронные сети не являются лучшими классификаторами (т.е. они в большинстве случаев выигрывают у SVM и RF), почему CNN заключают со слоями FC, а не, скажем, SVM или RF?

Mary93
источник

Ответы:

4

Это не так просто. Во-первых, SVM, в некотором смысле, является типом нейронной сети (вы можете изучить SVM-решение с помощью обратного распространения). Посмотрите, что * является * искусственной нейронной сетью? , Во-вторых, вы не можете заранее знать, какая модель будет работать лучше, но дело в том, что с полностью нейроморфной архитектурой вы можете изучать весовые коэффициенты от начала до конца, в то время как присоединение SVM или RF к последнему активированному скрытому слою CNN является просто специальная процедура. Он может работать лучше, а может и нет, мы не можем знать без тестирования.

Важной частью является то, что полностью сверточная архитектура способна к обучению репрезентации, что полезно по множеству причин. На этот раз это может уменьшить или полностью исключить разработку функций в вашей проблеме.

Что касается слоев FC, они математически эквивалентны сверточным слоям 1x1. Смотрите пост Яна Лекуна , который я расшифрую ниже:

В Сверточных Сетях нет такого понятия, как «полностью связанные слои». Существуют только слои свертки с ядрами свертки 1x1 и полной таблицей соединений.

Это слишком редко понимаемый факт, что ConvNets не должен иметь вход фиксированного размера. Вы можете обучить их на входах, которые производят один выходной вектор (без пространственного экстента), а затем применить их к большим изображениям. Вместо одного выходного вектора вы получите пространственную карту выходных векторов. Каждый вектор видит входные окна в разных местах на входе.

В этом сценарии «полностью связанные слои» действительно действуют как свертки 1x1.

поджигатель
источник
0

Если бы вы знали теорему об отсутствии бесплатного обеда (Wolpert & Macready), вы бы не зацикливались на одном классификаторе и не спрашивали, почему он не самый лучший. Теорема НФЛ в сущности утверждает, что «во вселенной всех функций стоимости нет лучшего классификатора». Во-вторых, производительность классификатора всегда «зависит от данных».

Теорема о гадком утенке (Ватанабэ) по существу утверждает, что «во вселенной всех наборов признаков нет ни одного наилучшего набора признаков».

п>N

В свете вышесказанного, а также Razor от Occam , никогда не бывает ничего лучше, чем что-либо еще, независимо от данных и функции стоимости.

Я всегда утверждал, что CNN сами по себе не являются ансамблями классификаторов, для которых можно оценить разнообразие (ошибка Каппа).

wrktsj
источник