В чем разница между гиперболическим касательным и сигмовидными нейронами?

8

Две общие функции активации, используемые в глубоком обучении, - это функция гиперболического тангенса и функция активации сигмовидной кишки. Я понимаю, что гиперболический тангенс - это просто изменение масштаба и перевод сигмоидальной функции:

tanh(z)=2σ(z)1,

Есть ли существенная разница между этими двумя функциями активации и, в частности, когда одна из них предпочтительнее другой ?

Я понимаю, что в некоторых случаях (например, при оценке вероятностей) выходы в диапазоне [0,1] более удобны, чем выходы, которые варьируются от [1,1], Я хочу знать, есть ли различия, кроме удобства, которые различают две функции активации.

bpachev
источник

Ответы:

3

Я не думаю, что имеет смысл выбирать функции активации, основываясь на желаемых свойствах вывода; Вы можете легко вставить шаг калибровки, который отображает «счет нейронной сети» на любые единицы измерения, которые вы действительно хотите использовать (доллары, вероятность и т. д.).

Поэтому я думаю, что предпочтение между различными функциями активации в основном сводится к различным свойствам этих функций активации (например, являются ли они непрерывно дифференцируемыми). Поскольку между ними есть только линейное преобразование, я думаю, это означает, что между ними нет существенной разницы.

Мэтью Грейвс
источник
2

Сигмоидальный> Гиперболический тангенс:

Как вы упомянули, применение сигмоида может быть более удобным, чем гиперболический тангенс в тех случаях, когда нам нужно значение вероятности на выходе (как говорит @ matthew-graves, мы можем исправить это с помощью простого шага картирования / калибровки). В других слоях это не имеет смысла.

Касательная гиперболическая> сигмовидная:

У гиперболического тангенса есть свойство, называемое «приближенная тождество около начала координат», что означает tanh(0)=0, tanh(0)=1, а также tanh(z) постоянно вокруг z=0 (в отличие от σ(0)=0.5 а также σ(0)=0.25). Эта функция (которая также существует во многих других функциях активации, таких как идентификация , арктан и синусоида ) позволяет сети эффективно учиться, даже когда ее веса инициализируются с небольшими значениями. В других случаях (например, Sigmoid и ReLU ) эти небольшие начальные значения могут быть проблематичными.

Дальнейшее чтение:

Инициализация случайного блуждания для обучения очень глубоких сетей с прямой связью

Борхан Казимипур
источник