Часто упоминается, что выпрямленные линейные единицы (ReLU) вытеснили единицы softplus, потому что они линейны и быстрее вычисляются.
Есть ли у softplus преимущество в том, что оно вызывает редкость или оно ограничено ReLU?
Причина, по которой я спрашиваю, заключается в том, что я задаюсь вопросом о негативных последствиях нулевого уклона ReLU. Разве это свойство не «захватывает» юниты в ноль, где может быть полезно дать им возможность реактивации?
machine-learning
neural-networks
brockl33
источник
источник
Ответы:
Я нашел ответ на ваш вопрос в разделе 6.3.3 книги глубокого обучения . (Goodfellow et. Al, 2016):
В качестве ссылки, подтверждающей это утверждение, они ссылаются на документ « Нейронные сети с глубоким разреженным выпрямителем» (Glorot et al., 2011).
источник
ReLU действительно могут быть постоянно отключены, особенно при высоких скоростях обучения. Это мотивация утечек ReLU и активаций ELU, которые почти везде имеют ненулевой градиент.
Leaky ReLU - это кусочно-линейная функция, так же как и для ReLU, поэтому она быстро вычисляется. ELU имеет преимущество перед softmax и ReLU в том, что средний выходной сигнал ближе к нулю, что улучшает обучение.
источник