Эффект НЕ изменения веса фильтра CNN во время backprop

Каков эффект НЕ изменения веса фильтра CNN во время обратного распространения? Я изменил только веса полностью связанных слоев во время обучения на наборе данных MNIST и все еще достиг почти 99-процентной точности.

machine-learning cnn mnist Абхисек Даш
источник

Интересно, вы начали со случайных весов или использовали весы из какой-то предыдущей сети? Также ваша мера точности из тренировочного набора или из тестового набора?

Нил Слэйтер

@ Нил Слэйтер: я начал со случайных весов Гаусса. Точность измерения находится на тестовом наборе.

Абхисек Даш

@Neil Slater: точность почти не меняется даже при разных инициализациях фильтров. Я использовал 2 слоя свертки и максимальный пул и слой FC с 256 скрытыми нейронами

Abhisek Dash

Ответы:

Не меняя веса сверточных слоев CNN, вы по существу вводите в свой классификатор (полностью связанный слой) случайные признаки (т. Е. Не оптимальные характеристики для рассматриваемой задачи классификации).

MNIST является легко достаточно классификацией изображений задачи , которую вы можете в значительной степени кормить входные пикселями классификатором без выделения признаков , и она будет забивать в высоких 90 - х годах. Кроме того, возможно, объединяющие слои немного помочь ...

Попробуйте обучить MLP (без слоев conv / pool) на входном изображении и посмотреть, как оно расположено. Вот пример, где MLP (1 скрытый и 1 выходной слой) достиг 98 +% без какой-либо предварительной обработки / извлечения объектов.

Редактировать:

Я также хотел бы указать на другой ответ , который я написал, в котором более подробно объясняется, почему MNIST так прост, как задача классификации изображений.

Djib2011
источник