функция активации tanh против функции активации сигмоида

Функция активации tanh:

t a n h (x) = 2 \cdot σ (2 x) - 1

$tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1$

Где , сигмовидная функция, определяется как: . $\sigma(x)$

σ (x) = \frac{e^{x}}{1 + e^{x}}

$\sigma(x) = \frac{e^x}{1 + e^x}$

Вопросов:

Имеет ли значение использование этих двух функций активации (tanh и sigma)?
Какая функция лучше в каких случаях?

machine-learning neural-networks optimization cost-maximization сатья
источник

tanh (x) = 2 σ (2 x) - 1

$\textrm{tanh}(x) = 2\sigma(2x) - 1$

Роман Шаповалов

Глубокие Нейронные Сети пошли дальше. Текущее предпочтение - функция RELU.

Пол Норд

@PaulNord И tanh, и сигмоиды все еще используются в сочетании с другими активациями, такими как RELU, в зависимости от того, что вы пытаетесь сделать.

Тахлор

Ответы:

Да, это важно по техническим причинам. В основном для оптимизации. Стоит прочитать Efficient Backprop от LeCun et al.

Для этого выбора есть две причины (при условии, что вы нормализовали свои данные, и это очень важно):

Наличие более сильных градиентов: поскольку данные сосредоточены вокруг 0, производные выше. Чтобы увидеть это, вычислите производную функции tanh и обратите внимание, что ее диапазон (выходные значения) равен [0,1].

Диапазон функции tanh составляет [-1,1], а функции сигмоида - [0,1]

Как избежать смещения в градиентах. Это очень хорошо объяснено в статье, и ее стоит прочитать, чтобы понять эти проблемы.

jpmuc
источник

У меня есть небольшое сомнение в предложенной вами статье. На странице 14, «Когда MLP имеют общие веса (например, сверточные сети), скорость обучения должна выбираться таким образом, чтобы она была пропорциональна квадратному корню из числа соединений, разделяющих вес». Не могли бы вы объяснить, почему?

сатья

на этот вопрос уже дан ответ здесь stats.stackexchange.com/questions/47590/…

jpmuc

Это очень общий вопрос. Короче говоря: функция стоимости определяет, что должна делать нейронная сеть: классификация или регрессия и как. Если бы вы могли получить копию «Нейронные сети для распознавания образов» Кристофера Бишопа, это было бы здорово. Также «Машинное обучение» Митчелла дает хорошее объяснение на более базовом уровне.

jpmuc

Прости, Сатья, я обычно очень занят в течение недели. Как вы точно нормализуете свои данные? en.wikipedia.org/wiki/Whitening_transformation Я не совсем уверен, в чем может быть ваша проблема. Самый простой способ - вычесть среднее и затем выровнять с ковариационной матрицей. Evtl. вам нужно добавить некоторый компонент для высоких частот (см. преобразование ZCA в приведенной выше ссылке)

jpmuc

Большое спасибо, Джуампа. Вы действительно мне очень помогаете. Предлагаемое чтение очень хорошее. Я на самом деле делаю проект по добыче климатических данных. 50% моих входных функций - это температура (диапазон 200K-310K), а 50% моих входных функций - значения давления (диапазон от 50000 до 100000 Па). Я делаю отбеливание. Перед pca, нужно ли его нормализовать ... Если да, то как мне его нормализовать? Должен ли я нормализоваться перед вычитанием по среднему или после вычитания по среднему? Я получаю разные результаты, если нормализуюсь разными методами ...

Сатья

Большое спасибо @jpmuc! Вдохновленный вашим ответом, я вычислил и нанес на график производную функции tanh и стандартной сигмовидной функции отдельно. Я хотел бы поделиться со всеми вами. Вот что я получил. Это производная от функции Тан. Для ввода между [-1,1] мы имеем производную между [0,42, 1].

Это производная от стандартной сигмоидальной функции f (x) = 1 / (1 + exp (-x)). Для ввода между [0,1] мы имеем производную между [0,20, 0,25].

Очевидно, функция tanh обеспечивает более сильные градиенты.

Мина ОН
источник

Другой способ взглянуть на это состоит в том, что σ (2x) - это то же самое, что и σ (x), но с примененным горизонтальным растяжением, масштабным коэффициентом 1/2 (т.е. это тот же график, но с тем, что все сжато по направлению к оси y). Когда вы раздавливаете его, склон становится круче

rbennett485

Я не понимаю, почему это будет иметь значение. Масштаб и сжатие будут случайными для каждого узла, и (со смещениями и весами на входе и выходе) оба будут универсальными аппроксиматорами, сходящимися к одному и тому же результату.

эндолит