Многомерная линейная регрессия против нейронной сети?

54

Похоже, что в некоторых случаях можно получить результаты, аналогичные нейронной сети с многомерной линейной регрессией, а многомерная линейная регрессия супер быстрая и простая.

При каких обстоятельствах нейронные сети могут давать лучшие результаты, чем многомерная линейная регрессия?

Хью Перкинс
источник

Ответы:

28

Нейронные сети могут в принципе моделировать нелинейности автоматически (см. Теорему об универсальном приближении ), которую вам необходимо явно моделировать, используя преобразования (сплайны и т. Д.) В линейной регрессии.

Предостережение: соблазн переоснащения может быть (даже) сильнее в нейронных сетях, чем в регрессии, поскольку добавление скрытых слоев или нейронов выглядит безвредным. Так что будьте предельно осторожны, чтобы посмотреть на производительность прогнозирования вне выборки.

С. Коласса - Восстановить Монику
источник
Хорошо. Думаю, у меня возникает вопрос: в какой степени я могу воспроизвести подобное поведение, дополнив мои входные данные квадратичными и кубическими терминами?
Хью Перкинс
3
На самом деле, вы, вероятно, можете приблизить NN с соответствующим образом преобразованными регрессорами в линейную регрессию так близко, как вы хотите (и наоборот). Однако лучшая практика, чем квадратичные и кубические, - это сплайны - я искренне рекомендую учебник Харрелла «Стратегии регрессионного моделирования».
С. Коласса - Восстановить Монику
Хорошо. Разумно ли предположить, что время обучения будет быстрее для линейной регрессии на преобразованных данных, или время обучения будет примерно одинаковым? Будет ли решение для линейной регрессии для преобразованных данных иметь единый глобальный максимум или будет много локального минимума, как для нейронных сетей? (Правка: я думаю, независимо от того, как преобразуются входные данные, решение линейной регрессии - это просто псевдообратная матрица проекта, умноженная на что-то, и поэтому всегда либо уникальная, либо единственная?)
Хью Перкинс,
2
Время обучения, конечно, будет зависеть от входных параметров (мало / много наблюдений, мало / много предикторов). Линейная регрессия включает в себя одну (псевдо) обратную (да, уникальность / особенность даже при преобразованных регрессорах), в то время как NN обычно обучаются итеративным способом, но итерации не включают матричные инверсии, поэтому каждая итерация быстрее - вы обычно остановите тренировку, основываясь на каком-то критерии, разработанном, чтобы остановить вас от переобучения.
С. Коласса - Восстановить Монику
1
@ Ямча: мое понимание теоремы об универсальном приближении состоит в том, что размерность в принципе не имеет значения. (Конечно, это асимптотический результат. Я ожидаю, что вам понадобятся ужасные объемы данных, чтобы NN был лучше, чем тонко настроенная полиномиальная регрессия. Начинает звучать как глубокое обучение ...)
С. Коласса - Восстановить Монику
16

Вы упоминаете линейную регрессию. Это связано с логистической регрессией , которая имеет аналогичный алгоритм быстрой оптимизации. Если у вас есть границы целевых значений, например, с проблемой классификации, вы можете рассматривать логистическую регрессию как обобщение линейной регрессии.

Нейронные сети являются строго более общими, чем логистическая регрессия на исходных входах, поскольку это соответствует сети с пропуском (с соединениями, напрямую связывающими входы с выходами) с скрытыми узлами.0

Когда вы добавляете такие функции, как , это похоже на выбор весов для нескольких скрытых узлов в одном скрытом слое. Существует не совсем корреспонденции, так как моделировать функцию как с сигмоида может занять более чем один скрытый нейрон. Когда вы тренируете нейронную сеть, вы позволяете ей находить свои скрытые веса, которые могут быть лучше. Это также может занять больше времени и может быть противоречивым. Вы можете начать с приближения к логистической регрессии с помощью дополнительных функций и медленно обучать веса ввода-скрытия, что в конечном итоге должно быть лучше, чем логистическая регрессия с дополнительными функциями. В зависимости от проблемы время обучения может быть незначительным или непомерным. 1 - 1 х 3x311x3

Одна промежуточная стратегия состоит в том, чтобы выбрать большое количество случайных узлов, аналогично тому, что происходит, когда вы инициализируете нейронную сеть, и исправляете веса ввода-скрытия. Оптимизация по весам * для вывода остается линейной. Это называется экстремальной обучающей машиной . Это работает по крайней мере так же, как оригинальная логистическая регрессия.

Дуглас Заре
источник
1
«Одна промежуточная стратегия состоит в том, чтобы выбрать большое количество случайных узлов, аналогично тому, что происходит при инициализации нейронной сети, и зафиксировать веса ввода-вывода. Оптимизация по весам * -в-выводе остается линейной». => Вы имеете в виду, что в этом случае будет единый глобальный максимум для решения?
Хью Перкинс
1
Для общего случайного выбора случайных скрытых узлов, да.
Дуглас Заре
2
отличный пост - предоставляющий контекст для [LR, LogR, NN, ELM]. Ваш комментарий о том, что LogR является NN с пропуском слоя, кажется очевидным после того, как на него указывают, но это хорошее понимание.
Джавадба
3

Линейная регрессия предназначена для разделения данных, которые являются линейно разделимыми, да, вы можете использовать дополнительные полиномы третьей степени, но таким образом вы снова указали некоторые предположения о данных, которые у вас есть, так как вы определяете структуру целевой функции. В нейронной сети. обычно у вас есть входной слой, который создает линейные разделители для данных, которые у вас есть, и скрытый слой И области, ограничивающие некоторые классы и ИЛИ последнего уровня, все эти области. Таким образом, все имеющиеся у вас данные могут быть классифицированы нелинейным способом, а также весь этот процесс происходит с внутренними весами и определенными функциями. Кроме того, увеличение номера элемента для линейной регрессии противоположно «проклятию размерности». Кроме того, некоторые приложения нуждаются в большем количестве вероятностных результатов, чем постоянные числа в качестве выходных данных.

erogol
источник