Функция активации tanh:
Где , сигмовидная функция, определяется как: \ sigma (x) = \ frac {e ^ x} {1 + e ^ x} .σ ( x ) = e x
Вопросов:
- Имеет ли значение использование этих двух функций активации (tanh и sigma)?
- Какая функция лучше в каких случаях?
Ответы:
Да, это важно по техническим причинам. В основном для оптимизации. Стоит прочитать Efficient Backprop от LeCun et al.
Для этого выбора есть две причины (при условии, что вы нормализовали свои данные, и это очень важно):
Диапазон функции tanh составляет [-1,1], а функции сигмоида - [0,1]
источник
Большое спасибо @jpmuc! Вдохновленный вашим ответом, я вычислил и нанес на график производную функции tanh и стандартной сигмовидной функции отдельно. Я хотел бы поделиться со всеми вами. Вот что я получил. Это производная от функции Тан. Для ввода между [-1,1] мы имеем производную между [0,42, 1].
Это производная от стандартной сигмоидальной функции f (x) = 1 / (1 + exp (-x)). Для ввода между [0,1] мы имеем производную между [0,20, 0,25].
Очевидно, функция tanh обеспечивает более сильные градиенты.
источник