Я прохожу курс DeepAI в Cousera (Неделя 3, видео 1 «Обзор нейронных сетей»), и Эндрю Нг объясняет, как каждый слой в нейронной сети - просто очередная логистическая регрессия, но он не объясняет, как это делает вещь более точной.
Итак, в двухслойной сети, как многократный расчет логистики делает его более точным?
Ответы:
При использовании функций логистической активации верно, что функция, связывающая входы каждого устройства с его выходом, такая же, как и для логистической регрессии. Но на самом деле это не то же самое, что каждая единица, выполняющая логистическую регрессию. Разница заключается в том, что в логистической регрессии веса и смещения выбираются так, чтобы выходные данные наилучшим образом соответствовали заданным целевым значениям (с использованием log / кросс-энтропийной потери). Напротив, скрытые юниты в нейронной сети отправляют свои выводы нижестоящим юнитам. Нет целевого выхода для соответствия отдельным скрытым единицам. Скорее, веса и смещения выбираются так, чтобы минимизировать некоторую целевую функцию, которая зависит от конечного результата сети.
Вместо того, чтобы выполнять логистическую регрессию, было бы более разумно думать о каждой скрытой единице как о вычислении координаты в некотором пространстве признаков. С этой точки зрения целью скрытого слоя является преобразование его входных данных - входной вектор отображается на вектор активаций скрытого слоя. Вы можете думать об этом как о сопоставлении входных данных с пространством объектов с размером, соответствующим каждой скрытой единице.
Выходной слой часто можно рассматривать как стандартный алгоритм обучения, который работает в этом пространстве признаков. Например, в задаче классификации использование единицы логистического вывода с кросс-энтропийной потерей эквивалентно выполнению логистической регрессии в пространстве признаков (или полиномиальной логистической регрессии при использовании выходов softmax). В задаче регрессии использование линейного вывода с квадратом ошибки эквивалентно выполнению линейной регрессии наименьших квадратов в пространстве признаков.
Обучение сети сводится к изучению функции отображения пространственных объектов и функции классификации / регрессии (в функциональном пространстве), которые вместе обеспечивают наилучшую производительность. Предполагая нелинейные скрытые единицы, увеличение ширины скрытого слоя или наложение нескольких скрытых слоев позволяет более сложные сопоставления пространств объектов, что позволяет подгонять более сложные функции.
источник
Один из способов увидеть силу нелинейности - отметить теорему об универсальном приближении .
Хотя на практике это не очень важно (речь идет о возможностях однослойных сетей), оно говорит вам, что если вы используете (произвольно длинные) суммы сигмоидов, вы в принципе можете приблизить любую непрерывную функцию к любому желаемому уровню. Если вы знаете теорию Фурье или помните теорему аппроксимации Вейерштрасса, это не должно удивлять.
источник
Когда в нейронной сети существуют скрытые слои, мы добавляем нелинейные функции. Пожалуйста, проверьте мой ответ здесь, чтобы получить некоторый смысл.
что делает нейронные сети нелинейной классификационной моделью?
В частности, вложенная сигмовидная функция будет более «мощной», чем линейное преобразование исходных признаков и одна сигмовидная функция (логистическая регрессия).
Вот числовой пример для рассмотрения комментариев OP.
источник
В стандартной логистической регрессии у нас есть 1 выход в последнем слое. Однако с помощью одной скрытой нейронной сети мы можем иметь несколько промежуточных значений, каждое из которых можно рассматривать как вывод другой модели логистической регрессии, т.е. мы не просто выполняем одну и ту же логистическую регрессию снова и снова. В таком случае это не большой скачок для того, чтобы думать, что возможно, что их сочетание обладает большими выразительными возможностями, чем стандартная модель логистической регрессии (а также было показано на практике и в теории ).
источник