В настоящее время я готовлюсь к экзамену по нейронным сетям. В нескольких протоколах предыдущих экзаменов я читал, что функции активации нейронов (в многослойных персептронах) должны быть монотонными.
Я понимаю, что функции активации должны быть дифференцируемыми, иметь производную, которая не равна 0 в большинстве точек, и быть нелинейной. Я не понимаю, почему быть монотонным важно / полезно.
Мне известны следующие функции активации и что они монотонные:
- РЕЛУ
- сигмоид
- Tanh
- Softmax: я не уверен, применимо ли определение монотонности для функций с
- Softplus
- (Идентичность)
Тем не менее, я до сих пор не вижу причин, почему, например, .
Почему функции активации должны быть монотонными?
(Смежный вопрос: есть ли причина, по которой логарифмическая / экспоненциальная функция не используется в качестве функции активации?)
machine-learning
neural-network
Мартин Тома
источник
источник
Ответы:
Критерий монотонности помогает нейронной сети легче сходиться в более точный классификатор. Посмотрите этот ответ stackexchange и статью в Википедии для более подробной информации и причин.
Однако критерий монотонности не является обязательным для функции активации - также можно обучать нейронные сети с немонотонными функциями активации. Оптимизировать нейронную сеть становится все труднее. Смотрите ответ Йошуа Бенжио .
источник
Я приведу более математическую причину того, почему помогает наличие монотонной функции!
Используя http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentiability-of-monotone-fun , предполагая, что наша функция активации является монотонной, мы можем сказать, что на реальной линии наша функция будет дифференцируема. Таким образом, градиент функции активации не будет ошибочной функцией. Будет проще найти минимумы, которые мы ищем. (вычислительно недорогой)
Экспоненциальные и логарифмические функции являются красивыми функциями, но они не ограничены (поэтому обратное утверждение теоремы Лебега неверно, поскольку Exp и Log являются дифференцируемыми функциями, которые не ограничены на действительной прямой). Таким образом, они терпят неудачу, когда мы хотим классифицировать наши примеры на заключительном этапе. Sigmoid и tanh работают очень хорошо, потому что у них есть градиенты, которые легко вычислить, и их диапазон составляет (0,1) и (-1,1) соответственно.
источник