Почему де-факто стандартная сигмоидальная функция так популярна в (не глубоких) нейронных сетях и логистической регрессии?
Почему бы нам не использовать многие из других производных функций с более быстрым временем вычисления или более медленным затуханием (так что исчезающий градиент происходит меньше). Немного примеров в Википедии о сигмоидальных функциях . Один из моих любимых вариантов с медленным затуханием и быстрым вычислением - это .
РЕДАКТИРОВАТЬ
Вопрос отличается от Всестороннего списка функций активации в нейронных сетях с плюсами / минусами, так как меня интересует только «почему» и только для сигмоида.
logistic
neural-networks
least-squares
Марк Хорват
источник
источник
Ответы:
Цитирую себя из этого ответа на другой вопрос:
Это объясняет, почему этот сигмоид используется в логистической регрессии.
Что касается нейронных сетей, этот пост в блоге объясняет, как различные нелинейности, в том числе logit / softmax и пробит, используемые в нейронных сетях, могут получить статистическую интерпретацию и, следовательно, мотивацию. Основная идея заключается в том, что многослойная нейронная сеть может рассматриваться как иерархия обобщенных линейных моделей; в соответствии с этим функции активации являются функциями связи, которые, в свою очередь, соответствуют различным предположениям о распределении.
источник
Одна из причин, по которой эта функция может показаться более «естественной», чем другие, заключается в том, что она оказывается обратной к каноническому параметру распределения Бернулли: (функция в показателе степени называется каноническим параметром.)п
Возможно, более убедительное обоснование приходит из теории информации, где сигмовидная функция может быть выведена как модель максимальной энтропии . Грубо говоря, сигмовидная функция предполагает минимальную структуру и отражает наше общее состояние неосведомленности о базовой модели.
источник
Я задавал себе этот вопрос месяцами. Ответы на CrossValidated и Quora все перечисляют хорошие свойства функции логистической сигмоиды, но кажется, что мы хитро угадали эту функцию. То, что я пропустил, было оправданием выбора. Я наконец нашел один в разделе 6.2.2.2 книги Bengio «Глубокое обучение» (2016) . Моими словами:
Короче говоря, мы хотим, чтобы логарифм выходных данных модели был пригоден для градиентной оптимизации логарифмической вероятности обучающих данных.
мотивация
Почему логистическая сигмовидная функция?
Обрезка с дает нулевой градиент для вне . Нам нужен сильный градиент всякий раз, когда прогноз модели неверен, потому что мы решаем логистическую регрессию с градиентным спуском. Для логистической регрессии не существует решения в закрытой форме.Z п( Y= 1 | Z) = m a x { 0 , m i n { 1 , z} } Z [ 0 , 1 ]
Логистическая функция обладает хорошим свойством асимптотики постоянного градиента, когда прогноз модели неверен, учитывая, что мы используем оценку максимального правдоподобия, чтобы соответствовать модели. Это показано ниже:
Для получения числовых преимуществ оценку максимального правдоподобия можно выполнить путем минимизации отрицательного логарифмического правдоподобия обучающих данных. Итак, наша функция стоимости:
Поскольку , мы можем сосредоточиться на случае . Итак, вопрос в том, как смоделировать учитывая, что мы имеем .п( Y= 0 |Z) = 1 - P(Y= 1 |Z) Y= 1 п(Y= 1 |Z) Z= шTх + б
Очевидные требования для функции отображающей на :е Z п(Y= 1 |Z)
Все эти требования выполняются путем изменения масштаба сигмоидальных функций . Оба и выполняют их. Однако сигмоидальные функции различаются по своему поведению во время градиентной оптимизации логарифмической вероятности. Мы можем увидеть разницу, подключив логистическую функцию к нашей функции стоимости.е( з) = 11 + е- з е( з) = 0,5 + 0,5 z1 + | Z| е( з) = 11 + е- з
Насыщенность дляY= 1
Для и стоимость одной ошибочно классифицированной выборки (т. Е. ) составляет:п( Y= 1 | Z) = 11 + е- з Y=1 m=1
Мы можем видеть, что существует линейная составляющая . Теперь мы можем рассмотреть два случая:−z
Насыщенность дляY=0
Выше мы сосредоточились на случае . Для функция стоимости ведет себя аналогично, обеспечивая сильные градиенты только тогда, когда прогноз модели неверен.Y=1 Y=0
Это функция стоимости для :J(z) Y=1
Это горизонтальная функция softplus. Для это функция softplus.Y=0
альтернативы
Вы упомянули об альтернативах функции логистической сигмоиды, например . Нормализовано до , это будет означать, что мы моделируем .z1+|z| [0,1] P(Y=1|z)=0.5+0.5z1+|z|
Во время MLE функция стоимости для будет тогдаY=1
который выглядит так:
Вы можете видеть, что градиент функции стоимости становится все слабее для .z→−∞
источник
Поскольку в первоначальном вопросе упоминалась проблема затухающего градиента, я просто хотел бы добавить, что для промежуточных слоев (где вам не нужно интерпретировать активации как вероятности классов или результаты регрессии), другие нелинейности часто предпочтительнее сигмоидальных функций. Наиболее заметными являются функции выпрямителя (как в ReLU ), которые линейны по положительной области и равны нулю по отрицательной. Одним из их преимуществ является то, что они менее подвержены проблеме затухающего градиента, потому что производная постоянна по положительной области. ReLU стали популярными настолько, что сигмоиды, вероятно, уже нельзя назвать стандартом де-факто.
источник