У Relu есть градиент 0 по определению, тогда почему исчезновение градиента не является проблемой для x <0?

10

По определению, Relu есть max(0,f(x)). Затем ее градиент определяется как: 1 if x > 0 and 0 if x < 0.

Не означает ли это, что градиент всегда равен 0 (исчезает), когда x <0? Тогда почему мы говорим, что Relu не страдает от проблемы градиентного исчезновения?

deep-learning Edamame
источник

5

Ты в основном прав! У ReLU есть проблема с исчезновением градиента, но только с одной стороны, поэтому мы называем это как-то иначе: «проблема умирающего ReLU». Посмотрите этот ответ переполнения стека для получения дополнительной информации: Какова проблема «умирающего ReLU» в нейронных сетях?

Это небольшая семантическая разница. Многие функции (tanh и logistic / sigmoid) имеют производные, очень близкие к нулю, когда вы выходите за пределы стандартного рабочего диапазона. Это проблема исчезающего градиента. Чем хуже вы становитесь, тем труднее вернуться в хорошую зону. ReLU не ухудшается, когда вы находитесь в положительном направлении, так что нет проблемы исчезновения градиента (с этой стороны). Этой асимметрии может быть достаточно, чтобы оправдать называть это чем-то другим, но идеи очень похожи.

Джозеф Катрамбон
источник

2

Стоит добавить: проблема исчезающего градиента, как правило, касается прогрессивных изменений по всей глубине сети, а не непосредственно свойств передаточных функций нейронов.

Нил Слэйтер

1

Исчезновение означает, что оно идет к 0, но на самом деле никогда не будет 0. Наличие градиентов 0 делает очень легкими вычисления, а наличие градиентов, близких к 0, означает, что есть изменения, только очень крошечные, которые означают медленное обучение и численные проблемы. 1 и 0 - два самых простых числа, которые можно вычислить в задачах оптимизации такого рода.

Ян ван дер Вегт
источник

У Relu есть градиент 0 по определению, тогда почему исчезновение градиента не является проблемой для x <0?

Ответы: