В чем разница между гиперболическим касательным и сигмовидными нейронами?

8

Две общие функции активации, используемые в глубоком обучении, - это функция гиперболического тангенса и функция активации сигмовидной кишки. Я понимаю, что гиперболический тангенс - это просто изменение масштаба и перевод сигмоидальной функции:

$\tanh(z) = 2\sigma(z) - 1$ ,

Есть ли существенная разница между этими двумя функциями активации и, в частности, когда одна из них предпочтительнее другой ?

Я понимаю, что в некоторых случаях (например, при оценке вероятностей) выходы в диапазоне $[0,1]$ более удобны, чем выходы, которые варьируются от $[-1,1]$ , Я хочу знать, есть ли различия, кроме удобства, которые различают две функции активации.

neural-networks machine-learning deep-network comparison hidden-layers bpachev
источник

3

Я не думаю, что имеет смысл выбирать функции активации, основываясь на желаемых свойствах вывода; Вы можете легко вставить шаг калибровки, который отображает «счет нейронной сети» на любые единицы измерения, которые вы действительно хотите использовать (доллары, вероятность и т. д.).

Поэтому я думаю, что предпочтение между различными функциями активации в основном сводится к различным свойствам этих функций активации (например, являются ли они непрерывно дифференцируемыми). Поскольку между ними есть только линейное преобразование, я думаю, это означает, что между ними нет существенной разницы.

Мэтью Грейвс
источник

2

Сигмоидальный> Гиперболический тангенс:

Как вы упомянули, применение сигмоида может быть более удобным, чем гиперболический тангенс в тех случаях, когда нам нужно значение вероятности на выходе (как говорит @ matthew-graves, мы можем исправить это с помощью простого шага картирования / калибровки). В других слоях это не имеет смысла.

Касательная гиперболическая> сигмовидная:

У гиперболического тангенса есть свойство, называемое «приближенная тождество около начала координат», что означает $\tanh(0) = 0$ , $\tanh'(0) = 1$ , а также $\tanh'(z)$ постоянно вокруг $z=0$ (в отличие от $\sigma(0)=0.5$ а также $\sigma'(0)=0.25$ ). Эта функция (которая также существует во многих других функциях активации, таких как идентификация , арктан и синусоида ) позволяет сети эффективно учиться, даже когда ее веса инициализируются с небольшими значениями. В других случаях (например, Sigmoid и ReLU ) эти небольшие начальные значения могут быть проблематичными.

Дальнейшее чтение:

Инициализация случайного блуждания для обучения очень глубоких сетей с прямой связью

Борхан Казимипур
источник

В чем разница между гиперболическим касательным и сигмовидными нейронами?

Ответы: