При обучении нейронных сетей существует как минимум 4 способа упорядочения сети:
плюс, конечно, другие вещи, такие как распределение веса и уменьшение количества соединений, что не может быть регуляризацией в самом строгом смысле.
Но как выбрать, какой из этих методов регуляризации использовать? Есть ли более принципиальный способ, чем «просто попробуй все и посмотри, что работает»?
neural-network
regularization
Томас Джонсон
источник
источник
Ответы:
Нет никаких сильных, хорошо документированных принципов, которые бы помогли вам выбрать между типами регуляризации в нейронных сетях. Вы можете даже комбинировать методы регуляризации, вам не нужно выбирать только один.
Работоспособный подход может быть основан на опыте и на основании литературы и результатов других людей, чтобы увидеть, что дало хорошие результаты в различных проблемных областях. Имея это в виду, отсев оказался очень успешным для широкого круга проблем, и вы, вероятно, можете считать его хорошим первым выбором почти независимо от того, что вы пытаетесь.
Также иногда может помочь просто выбор варианта, с которым вы знакомы - работа с техниками, которые вы понимаете и у которых есть опыт, может дать вам лучшие результаты, чем пробовать целый пакет с различными вариантами, когда вы не уверены, какой порядок значений использовать для параметра. , Ключевая проблема заключается в том, что методы могут взаимодействовать с другими параметрами сети - например, вы можете увеличить размер слоев с выпадением в зависимости от процента выпадения.
Наконец, может не иметь большого значения, какие методы регуляризации вы используете, просто то, что вы понимаете свою проблему и достаточно хорошо моделируете, чтобы определить, когда она переизбыточна, и можете сделать это с большей регуляризацией. Или, наоборот, определите, когда он недостаточно подходит, и что вы должны уменьшить регуляризацию.
источник
Метод регуляризации
Для следующих 4 методов, регуляризация L1 и регуляризация L2 не должны говорить, что они должны быть методом регуляризации. Они уменьшают вес. L1 сконцентрируется на уменьшении меньшего количества веса, если веса имеют большее значение.
Выпадение предотвращает переоснащение путем временного выпадения нейронов. В конце концов, он рассчитывает все веса как среднее, чтобы вес не был слишком большим для конкретного нейрона, и, следовательно, это метод регуляризации.
Нормализация партии не должна быть методом регуляризации, потому что ее главная цель - ускорить тренировку, выбрав партию и заставив распределять вес около 0, не слишком большой и не слишком маленький.
Выбирая это
Для меня мини-пакет является обязательным, потому что он может ускорить процесс и улучшить производительность сети каждый раз.
L1 и L2 оба похожи, и я бы предпочел L1 в небольшой сети.
В идеале, отсева следует применять, если есть большая проблема вариации или переоснащение.
И последнее, но не менее важное: я согласен с Нилом Слейтером в том, что это зависит от ситуации и никогда не будет оптимального решения.
Я рекомендую вам прочитать это для получения дополнительной информации. Это очень хороший материал. http://neuralnetworksanddeeplearning.com/chap3.html
источник
Посмотрите на эти алгоритмические варианты как дополнительные гиперпараметры и оптимизируйте их так же, как и для других ваших гиперпараметров. Обычно это потребует больше данных, хотя.
источник