Почему ReLU лучше, чем другие функции активации

17

Здесь ответ относится к исчезающему и взрывному градиенту, который был sigmoidпохож на функции активации, но, я думаю, Reluимеет недостаток, и это его ожидаемое значение. нет ограничений на вывод Reluи поэтому его ожидаемое значение не равно нулю. Я помню время , прежде чем популярность , Reluчто tanhбыл самым популярным среди машинного обучения специалистов , а не sigmoid. Причина заключалась в том, что ожидаемое значение tanhбыло равно нулю, и это помогло обучению в более глубоких слоях быть более быстрым в нейронной сети. Reluне имеет этой характеристики, но почему это работает так хорошо, если мы оставим в стороне его производное преимущество. Кроме того, я думаю, что производная также может быть затронута. Поскольку активация (выходRelu) участвуют в расчете правил обновления.

СМИ
источник
Распространено иметь некоторую нормализацию (например, пакетную нормализацию, нормализацию уровня) вместе с ReLU. Это регулирует выходной диапазон.
ncasas
@ncasas Но в типичной CNNнормализации выходной reluэто не распространено? По крайней мере, я никогда этого не видел.
СМИ,
Вы правы, в не очень глубоких CNN это нормально, чтобы не иметь пакетной нормализации. Рассматривали ли вы роль начальных значений веса? (например, инициализация He)
ncasas
да, на самом деле они предназначены для того, чтобы как-то предотвратить исчезновение / взрыв градиентов, после некоторых итераций, я думаю, выходной сигнал увеличивается.
СМИ

Ответы:

21

Самым большим преимуществом ReLu действительно является ненасыщенность градиента, что значительно ускоряет сходимость стохастического градиентного спуска по сравнению с сигмоидальными / танговыми функциями ( статья Крижевского и др.).

Но это не единственное преимущество. Здесь обсуждаются редкие эффекты активаций ReLu и индуцированной регуляризации. Другим приятным свойством является то, что по сравнению с коричневыми / сигмовидными нейронами, которые включают в себя дорогостоящие операции (экспоненты и т. Д.), ReLU может быть реализован простым пороговым значением матрицы активаций в нуле.

Но я не уверен , что большой успех современных нейронных сетей обусловлена РЕЛУ только . Новые методы инициализации, такие как инициализация Xavier, выпадение и (позже) batchnorm, также сыграли очень важную роль. Например, известный AlexNet использовал ReLu и Dropout .

Итак, чтобы ответить на ваш вопрос: ReLu обладает очень хорошими свойствами, хотя и не идеальными . Но это действительно хорошо зарекомендовало себя в сочетании с другими замечательными техниками, которые, кстати, решают проблему с ненулевым центром, о которой вы упоминали.

UPD: Выход ReLu действительно не центрирован по нулю, и это снижает производительность NN. Но эта конкретная проблема может быть решена с помощью других методов регуляризации, например, batchnorm, который нормализует сигнал перед активацией :

Иксзнак равноWU+б

Максим
источник
1
Я должен был подчеркнуть эту часть: я пытался сказать, что только ReLu не решает эту проблему. Вы правы в том, что выход ReLu не центрирован по нулю, и это ухудшает производительность NN, если вес не регуляризован. Но насыщенные градиенты повредили NN еще больше, поэтому массовое внедрение ReLu было шагом вперед, несмотря на его недостатки.
Максим
Не могли бы вы сказать, что вы подразумеваете под регуляризацией весов? в ответе, а также то, что вы подчеркнули.
СМИ,
Обновил мой ответ с некоторыми подробностями об этой конкретной проблеме
Максим
Что меня немного смущает, почему бы просто не использовать функцию идентификации? В чем преимущество 0 для отрицательных значений?
Алекс
@ Алекс ID не является нелинейностью. Это эквивалентно наличию только линейных слоев в NN. Смотрите этот вопрос - stackoverflow.com/q/46659525/712995
Максим