Выбор метода регуляризации в нейронных сетях

9

При обучении нейронных сетей существует как минимум 4 способа упорядочения сети:

  • Регуляризация L1
  • Регуляризация L2
  • Выбывать
  • Пакетная нормализация

    плюс, конечно, другие вещи, такие как распределение веса и уменьшение количества соединений, что не может быть регуляризацией в самом строгом смысле.

    Но как выбрать, какой из этих методов регуляризации использовать? Есть ли более принципиальный способ, чем «просто попробуй все и посмотри, что работает»?

  • Томас Джонсон
    источник
    3
    У нейронных сетей есть принципы? Принцип метода «черного ящика» - попробовать все и посмотреть, что работает
    Даррин Томас,
    И это довольно грустно, вы не находите?
    Алекс

    Ответы:

    6

    Нет никаких сильных, хорошо документированных принципов, которые бы помогли вам выбрать между типами регуляризации в нейронных сетях. Вы можете даже комбинировать методы регуляризации, вам не нужно выбирать только один.

    Работоспособный подход может быть основан на опыте и на основании литературы и результатов других людей, чтобы увидеть, что дало хорошие результаты в различных проблемных областях. Имея это в виду, отсев оказался очень успешным для широкого круга проблем, и вы, вероятно, можете считать его хорошим первым выбором почти независимо от того, что вы пытаетесь.

    Также иногда может помочь просто выбор варианта, с которым вы знакомы - работа с техниками, которые вы понимаете и у которых есть опыт, может дать вам лучшие результаты, чем пробовать целый пакет с различными вариантами, когда вы не уверены, какой порядок значений использовать для параметра. , Ключевая проблема заключается в том, что методы могут взаимодействовать с другими параметрами сети - например, вы можете увеличить размер слоев с выпадением в зависимости от процента выпадения.

    Наконец, может не иметь большого значения, какие методы регуляризации вы используете, просто то, что вы понимаете свою проблему и достаточно хорошо моделируете, чтобы определить, когда она переизбыточна, и можете сделать это с большей регуляризацией. Или, наоборот, определите, когда он недостаточно подходит, и что вы должны уменьшить регуляризацию.

    Нил Слэйтер
    источник
    3

    Метод регуляризации

    Для следующих 4 методов, регуляризация L1 и регуляризация L2 не должны говорить, что они должны быть методом регуляризации. Они уменьшают вес. L1 сконцентрируется на уменьшении меньшего количества веса, если веса имеют большее значение.

    Выпадение предотвращает переоснащение путем временного выпадения нейронов. В конце концов, он рассчитывает все веса как среднее, чтобы вес не был слишком большим для конкретного нейрона, и, следовательно, это метод регуляризации.

    Нормализация партии не должна быть методом регуляризации, потому что ее главная цель - ускорить тренировку, выбрав партию и заставив распределять вес около 0, не слишком большой и не слишком маленький.

    Выбирая это

    Для меня мини-пакет является обязательным, потому что он может ускорить процесс и улучшить производительность сети каждый раз.

    L1 и L2 оба похожи, и я бы предпочел L1 в небольшой сети.

    В идеале, отсева следует применять, если есть большая проблема вариации или переоснащение.

    И последнее, но не менее важное: я согласен с Нилом Слейтером в том, что это зависит от ситуации и никогда не будет оптимального решения.

    Я рекомендую вам прочитать это для получения дополнительной информации. Это очень хороший материал. http://neuralnetworksanddeeplearning.com/chap3.html

    BenjiBB
    источник
    -1

    Посмотрите на эти алгоритмические варианты как дополнительные гиперпараметры и оптимизируйте их так же, как и для других ваших гиперпараметров. Обычно это потребует больше данных, хотя.

    Alex
    источник
    2
    Привет Алекс, добро пожаловать в DS.SE. Это сайт вопросов и ответов, на котором самые богатые ответы находятся на вершине голосования. Кто-то проголосовал за вас, возможно, так как ваш ответ довольно короткий и обычно объясняет решение (например), не объясняет детали гиперпараметров, термин, который не использовался оригинальным постером.
    Маркус Д.