По определению, Relu есть max(0,f(x))
. Затем ее градиент определяется как:
1 if x > 0 and 0 if x < 0
.
Не означает ли это, что градиент всегда равен 0 (исчезает), когда x <0? Тогда почему мы говорим, что Relu не страдает от проблемы градиентного исчезновения?
источник
Исчезновение означает, что оно идет к 0, но на самом деле никогда не будет 0. Наличие градиентов 0 делает очень легкими вычисления, а наличие градиентов, близких к 0, означает, что есть изменения, только очень крошечные, которые означают медленное обучение и численные проблемы. 1 и 0 - два самых простых числа, которые можно вычислить в задачах оптимизации такого рода.
источник