Здесь ответ относится к исчезающему и взрывному градиенту, который был sigmoid
похож на функции активации, но, я думаю, Relu
имеет недостаток, и это его ожидаемое значение. нет ограничений на вывод Relu
и поэтому его ожидаемое значение не равно нулю. Я помню время , прежде чем популярность , Relu
что tanh
был самым популярным среди машинного обучения специалистов , а не sigmoid
. Причина заключалась в том, что ожидаемое значение tanh
было равно нулю, и это помогло обучению в более глубоких слоях быть более быстрым в нейронной сети. Relu
не имеет этой характеристики, но почему это работает так хорошо, если мы оставим в стороне его производное преимущество. Кроме того, я думаю, что производная также может быть затронута. Поскольку активация (выходRelu
) участвуют в расчете правил обновления.
17
CNN
нормализации выходнойrelu
это не распространено? По крайней мере, я никогда этого не видел.Ответы:
Самым большим преимуществом ReLu действительно является ненасыщенность градиента, что значительно ускоряет сходимость стохастического градиентного спуска по сравнению с сигмоидальными / танговыми функциями ( статья Крижевского и др.).
Но это не единственное преимущество. Здесь обсуждаются редкие эффекты активаций ReLu и индуцированной регуляризации. Другим приятным свойством является то, что по сравнению с коричневыми / сигмовидными нейронами, которые включают в себя дорогостоящие операции (экспоненты и т. Д.), ReLU может быть реализован простым пороговым значением матрицы активаций в нуле.
Но я не уверен , что большой успех современных нейронных сетей обусловлена РЕЛУ только . Новые методы инициализации, такие как инициализация Xavier, выпадение и (позже) batchnorm, также сыграли очень важную роль. Например, известный AlexNet использовал ReLu и Dropout .
Итак, чтобы ответить на ваш вопрос: ReLu обладает очень хорошими свойствами, хотя и не идеальными . Но это действительно хорошо зарекомендовало себя в сочетании с другими замечательными техниками, которые, кстати, решают проблему с ненулевым центром, о которой вы упоминали.
UPD: Выход ReLu действительно не центрирован по нулю, и это снижает производительность NN. Но эта конкретная проблема может быть решена с помощью других методов регуляризации, например, batchnorm, который нормализует сигнал перед активацией :
источник