По сути, мой вопрос заключается в том, что в многослойных персептронах персептроны используются с сигмовидной активационной функцией. Так что в правиле обновления у вычисляется как
Чем этот «сигмовидный» персептрон отличается от логистической регрессии?
Я бы сказал , что однослойный персептрон сигмовидной эквивалентно логистической регрессии в том смысле , что оба используют у = 1 в правиле обновления. Кроме, как обратныйзнак( у =1в прогнозе. Однако в многослойных персептронах функция активации сигмоида используется для возврата вероятности, а не сигнала включения-выключения в отличие от логистической регрессии и однослойного персептрона.
Я думаю, что использование термина «персептрон» может быть немного неоднозначным, поэтому позвольте мне дать некоторые сведения, основанные на моем текущем понимании однослойных персептронов:
Классическое правило персептрона
Во-первых, классический персептрон Ф. Розенблатта, где у нас есть ступенчатая функция:
обновить веса
Так что у рассчитывается как
Градиентный спуск
Используя градиентный спуск, мы оптимизируем (минимизируем) функцию стоимости
где у нас есть «реальные» числа, так что я вижу это в основном аналогично линейной регрессии с той разницей, что наш классификационный результат имеет пороговое значение.
Здесь мы делаем шаг в отрицательном направлении градиента, когда мы обновляем веса
Но здесь мы имеем у = ш Т х я вместо у = знак ( ш Т х I )
Кроме того, мы рассчитываем сумму квадратов ошибок для полного прохода по всему набору обучающих данных (в режиме пакетного обучения) в отличие от классического правила персептрона, которое обновляет весовые коэффициенты по мере поступления новых обучающих выборок (аналог стохастического градиентного спуска - онлайн учусь).
Сигмовидная функция активации
Теперь вот мой вопрос:
В многослойных персептронах персептроны используются с сигмовидной функцией активации. Так что в правиле обновления у вычисляется как
Чем этот «сигмовидный» персептрон отличается от логистической регрессии?
Ответы:
Если вы минимизируете среднеквадратичную ошибку, то она отличается от логистической регрессии. Логистическая регрессия обычно связана с перекрестной потерей энтропии, вот страница введения из библиотеки scikit-learn .
(Я предполагаю, что многослойные персептроны - это то же самое, что называется нейронными сетями.)
Если вы использовали кросс-энтропийную потерю (с регуляризацией) для однослойной нейронной сети, то это будет та же модель (лог-линейная модель), что и логистическая регрессия. Если вместо этого вы используете многослойную сеть, ее можно рассматривать как логистическую регрессию с параметрическими нелинейными базисными функциями.
Выходные данные как логистической регрессии, так и нейронных сетей с функцией активации сигмоида могут быть интерпретированы как вероятности. Поскольку кросс-энтропийная потеря на самом деле является отрицательной логарифмической вероятностью, определенной через распределение Бернулли.
источник
Поскольку градиентный спуск обновляет каждый параметр таким образом, что он уменьшает выходную ошибку, которая должна оставаться функцией всех параметров. Активация на основе порога не дифференцируема, поэтому используется сигмовидная или танх активация.
Вот однослойная НН
if activation function were a basic step function (threshold), derivative ofJ w.r.t zk would be non-differentiable.
here is a link that explain it in general.
Edit: Maybe, I misunderstood what you mean by perceptron. If I'm not mistaken, perceptron is threholded weighed sum of inputs. If you change threholding with logistic function it turns into logistic regression. Multi-layer NN with sigmoid (logistic) activation functions is cascaded layers composed of logistic regressions.
источник
Intuitively, I think of a multilayer perceptron as computing a nonlinear transformation on my input features, and then feeding these transformed variables into a logistic regression.
The multinomial (that is, N > 2 possible labels) case may make this more clear. In traditional logistic regression, for a given data point, you want to compute a "score",βiX , for each class, i . And the way you convert these to probabilities is just by taking the score for the given class over the sum of scores for all classes, βiX∑jβjX , Таким образом, класс с большим баллом имеет большую долю комбинированного балла и, следовательно, более высокую вероятность. Если вы вынуждены прогнозировать отдельный класс, вы выбираете класс с наибольшей вероятностью (что также является наибольшим баллом).
Я не знаю о вас, но на моих курсах и исследованиях по моделированию я пробовал все разумные и глупые преобразования входных функций, чтобы улучшить их значимость и общий прогноз модели. Квадрат, сбор журналов, объединение двух в норму и т. Д. У меня не было стыда, но терпение было ограниченным.
Многослойный персептрон подобен аспиранту, у которого слишком много времени. Посредством обучения градиентному спуску и активации сигмоидии он будет вычислять произвольные нелинейные комбинации ваших исходных входных переменных. В последнем слое персептрона эти переменные фактически становятсяИкс в приведенном выше уравнении, и ваш градиентный спуск также вычисляет связанный окончательный βя , Платформа MLP - просто абстракция этого.
источник