Существуют ли исследования, которые изучают отсев против других регуляризаций?

9

Существуют ли опубликованные статьи, в которых показаны различия в методах регуляризации для нейронных сетей, предпочтительно в разных областях (или, по крайней мере, в разных наборах данных)?

Я спрашиваю, потому что у меня сейчас есть ощущение, что большинство людей, похоже, используют только отсев для регуляризации в компьютерном зрении. Я хотел бы проверить, если бы была причина (не) использовать различные способы регуляризации.

Мартин Тома
источник

Ответы:

3

Два момента:

  1. Выпадение также обычно сравнивают с ансамблями нейронных сетей. Кажется, что он имеет некоторые преимущества в производительности обучения и усреднения нескольких нейронных сетей.
  2. Выпадение легче откалибровать, чем регуляризацию. Существует только один гиперпараметр, который представляет собой коэффициент отсева, и люди широко используют 0,5 во время обучения (а затем 1,0 при оценке курса :)), см., Например, этот пример TensorFlow .

Во всяком случае, я немного скептически отношусь к эмпирическим исследованиям нейронных сетей. Слишком много гиперпараметров для тонкой настройки, от топологии сети до процедуры оптимизации градиентного спуска до функций активации и всего, что вы тестируете, например регуляризации. Тогда все дело в стохастике, и обычно прирост производительности настолько мал, что вряд ли можно провести статистический тест на различия. Многие авторы даже не удосужились провести статистическое тестирование. Они просто усредняют перекрестную проверку и объявляют, какая модель имеет наибольшее усиление десятичной точки, чтобы быть победителем.

Вы можете обнаружить, что исследование, способствующее отсеву, противоречит другому, способствующему регуляризации.

Я думаю, что все сводится к эстетическим предпочтениям. Отсев ИМХО звучит более правдоподобно, чем регуляризация. Это также кажется легче калибровать. Так что я лично предпочитаю это при использовании фреймворка типа TensorFlow. Если нам придется использовать собственную нейронную сеть, что мы часто делаем, мы будем использовать регуляризацию, потому что ее было проще реализовать.

Рикардо Круз
источник
0

Определенно. Бумага от самого Создателя, Джеффри Хинтон. https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf прочитайте его. Но я призываю вас самим увидеть разницу в ее реализации.

Амануэль Негаш
источник
2
В статье не проводится явного сравнения между различными подходами к регуляризации, за исключением того, что демонстрируется отсев как улучшение современных результатов в то время (в предыдущих результатах, скорее всего, использовались некоторые другие формы регуляризации, но они не перечислены). Он также упоминает ограничения веса maxnorm как эффективный дополнительный регуляризатор для увеличения отсева.
Нил Слэйтер