Почему предположение о нормальности в линейной регрессии

15

Мой вопрос очень прост: почему мы выбираем нормальное в качестве распределения, которому следует термин ошибки в предположении о линейной регрессии? Почему мы не выбираем других, как униформу, т или как?

Мастер Ши
источник
5
Мы не выбираем нормальное предположение. Просто бывает, что когда ошибка нормальная, коэффициенты модели точно следуют нормальному распределению, и точный F-критерий можно использовать для проверки гипотез о них.
AdamO
10
Потому что математика получается достаточно легко, чтобы люди могли использовать ее до современных компьютеров.
Nat
1
@AdamO Я не понимаю; Вы только обрисовали причины, по которым мы выбираем это.
JiK
2
@JiK, если бы я мог выбирать дистрибутивы, не было бы никакой необходимости в статистике. Весь мир был бы вероятностью.
AdamO
1
@AdamO Вы можете выбирать допущения для своей модели, когда вы делаете статистический вывод, поэтому я не думаю, что это означает, что статистики нет.
JiK

Ответы:

29

Мы выбираем другие распределения ошибок. Во многих случаях вы можете сделать это довольно легко; Если вы используете оценку максимального правдоподобия, это изменит функцию потерь. Это, безусловно, делается на практике.

Лаплас (двойные экспоненциальные ошибки) соответствуют регрессии наименьших абсолютных отклонений / регрессии L1 (о чем свидетельствуют многочисленные сообщения на сайте). Регрессии с t-ошибками иногда используются (в некоторых случаях потому, что они более устойчивы к грубым ошибкам), хотя они могут иметь недостаток - вероятность (и, следовательно, отрицательная величина потерь) могут иметь несколько режимов.

Однородные ошибки соответствуют потере L (минимизируйте максимальное отклонение); такую ​​регрессию иногда называют чебышевской аппроксимацией (хотя будьте осторожны, поскольку есть другая вещь с по сути тем же именем). Опять же, это иногда делается (действительно, для простых регрессионных и небольших наборов данных с ограниченными ошибками с постоянным разбросом подбор часто достаточно легко найти вручную, непосредственно на графике, хотя на практике вы можете использовать методы линейного программирования или другие алгоритмы действительно, проблемы регрессии L и L1 являются двойственными друг от друга, что может приводить к иногда удобным сочетаниям клавиш для некоторых задач).

Фактически, вот пример модели «равномерной ошибки», подгоняемой к данным вручную:

L-infinity regression fitted by hand. The two "lowest" points under the strip of data points are marked, and the two "highest" points above the strip of data are marked.

Легко определить (с помощью линейки по направлению к данным), что четыре отмеченные точки являются единственными кандидатами для нахождения в активном наборе; три из них фактически формируют активный набор (и небольшая проверка вскоре определяет, какие три приводят к самой узкой полосе, охватывающей все данные). Линия в центре этой полосы (отмечена красным) является максимальной оценкой вероятности линии.

Возможны многие другие варианты модели, и многие из них были использованы на практике.

Обратите внимание, что если у вас есть аддитивные, независимые ошибки с постоянным разбросом с плотностью вида kexp(c.g(ε)) , максимизация вероятности будет соответствовать минимизацииig(ei) , гдеei - этоi й остаток.

Однако существует множество причин, по которым наименьшие квадраты являются популярным выбором, многие из которых не требуют предположения о нормальности.

Glen_b - Восстановить Монику
источник
2
Отличный ответ. Не могли бы вы добавить несколько ссылок, которые дают более подробную информацию о том, как эти варианты используются на практике?
rgk
(+1) Отличный ответ. Не могли бы вы поделиться R-кодом, используемым для подгонки линии регрессии? L
COOLSerdash
1
Как я объяснил в тексте, я установил его вручную, очень похоже на описанный мной подход. Хотя это можно сделать достаточно легко с помощью кода, я буквально открыл график в MS Paint и определил три точки в активном наборе (соединение двух из которых дало наклон), а затем переместил линию на полпути к третьей точке. (вдвое уменьшив вертикальное расстояние в пикселях и переместив линию на столько пикселей вверх), чтобы продемонстрировать, насколько простым это может быть. Ребенка можно научить это делать.
Glen_b
@Glen_b Действительно, я был подростком, когда меня учили делать именно это в физической лаборатории новичка.
Питер Леопольд
9

Нормальное / гауссовское предположение часто используется, потому что это наиболее удобный в вычислительном отношении выбор. Вычисление оценки максимального правдоподобия коэффициентов регрессии является задачей квадратичной минимизации, которая может быть решена с использованием чисто линейной алгебры. Другие варианты распределения шума приводят к более сложным задачам оптимизации, которые обычно должны решаться численно. В частности, проблема может быть невыпуклой, приводящей к дополнительным осложнениям.

Нормальность не обязательно является хорошим предположением в целом. Нормальное распределение имеет очень легкие хвосты, и это делает оценку регрессии весьма чувствительной к выбросам. Альтернативы, такие как t-распределения Лапласа или Стьюдента, часто лучше, если данные измерений содержат выбросы.

См. Оригинальную книгу Питера Хьюбера «Надежная статистика» для получения дополнительной информации.

Мартин Л
источник
2

При работе с этой гипотезой регрессия на основе квадратов с ошибками и максимальная вероятность дают вам одно и то же решение. Вы также можете получить простые F-тесты для значимости коэффициентов, а также доверительные интервалы для ваших прогнозов.

В заключение, причина, по которой мы часто выбираем нормальное распределение, заключается в его свойствах, которые часто упрощают работу. Это также не очень ограничительное предположение, так как многие другие типы данных будут вести себя «нормально»

В любом случае, как уже упоминалось в предыдущем ответе, есть возможность определить регрессионные модели для других распределений. Нормальный просто самый повторяющийся

Дэвид
источник
2

Glen_b славно пояснил , что МНК может быть обобщен (максимизация вероятности вместо минимизации суммы квадратов) , и мы делаем выбор других дистрибутивов.

Однако почему так часто выбирают нормальное распределение ?

Причина в том, что нормальное распределение происходит во многих местах естественным путем. Это немного похоже на то, как мы часто видим золотое сечение или числа Фибоначчи, возникающие «спонтанно» в разных местах в природе.

Нормальное распределение - это предельное распределение для суммы переменных с конечной дисперсией (или возможны менее строгие ограничения). И, не принимая ограничения, это также хорошее приближение для суммы конечного числа переменных. Таким образом, поскольку многие наблюдаемые ошибки встречаются как сумма множества маленьких ненаблюдаемых ошибок, нормальное распределение является хорошим приближением.

Смотрите также здесь Важность нормального распределения

где бобовые машины Гальтона показывают принцип интуитивно

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png

Секст Эмпирик
источник
-1

Почему мы не выбираем другие дистрибутивы?

yiRxiRnИкся

Y^язнак равновесИкся,

Внезапная потеря, как правило, является наиболее ощутимой потерей:

L=logP(yixi).

Вы можете думать о линейной регрессии как об использовании нормальной плотности с фиксированной дисперсией в приведенном выше уравнении:

L=logP(yixi)(yiy^i)2,

Это приводит к обновлению веса:

wL=(y^iyi)xi


В общем случае, если вы используете другое экспоненциальное семейное распределение, эта модель называется обобщенной линейной моделью . Различное распределение соответствует разной плотности, но его легче формализовать, изменив прогноз, вес и цель.

WRn×k

u^ig(Wxi)

g:RkRkyi ui=T(yi)Rk

η

f(z)=h(z)exp(ηT(z)g(η)).

ηwxiz=yi

WL=Wlogf(x)=(g(Wxi))xiT(yi)xi=(u^iui)xi,


Насколько я знаю, лог-нормализатор градиента может быть любой монотонной аналитической функцией, а любая монотонная аналитическая функция является лог-нормализатором градиента некоторого экспоненциального семейства.

Нил Г
источник
Это очень коротко и слишком загадочно для наших стандартов, пожалуйста, объясните неожиданно .
kjetil b halvorsen
1
«каждая функция связи соответствует другому предположению распределения», это очень расплывчато. Функция связывания имеет отношение не к обобщению к различным предположениям о распределении, а к обобщению (линейной) части, которая описывает среднее значение распределения.
Секст Эмпирик
1
fg
1
Обычно определенные функции связи используются с определенными допущениями распределения. Но это не обязательно. Таким образом , мои дистрибутивные предположения являются нормальными в этом примере, а не Пуассон (что было сделано намеренно). Некоторыми лучшими (более практичными и общеизвестными) примерами являются биномиальные переменные / переменные Бернулли, где люди работают с пробит-моделью или логит-моделью, то есть разные функции связи, но одинаковое (условное) распределение.
Секст Эмпирик
1
@Neil G: я ленивый? Вы могли бы легко включить неожиданность в оригинальный пост, да? Кроме того, когда я делаю такие комментарии, это больше для сайта, чем для себя. Этот сайт должен быть автономным. Я мог бы предположить / действительно угадал значение (даже если это нестандартная терминология в статистике), как вы можете видеть из моего ответа здесь, энтропия
kjetil b halvorsen