В линейной регрессии мы делаем следующие предположения
Одним из способов решения линейной регрессии является использование нормальных уравнений, которые можно записать в виде
С математической точки зрения вышеприведенному уравнению требуется только чтобы быть обратимым. Итак, зачем нам эти предположения? Я спросил нескольких коллег, и они упомянули, что это хороший результат, а нормальные уравнения - это алгоритм для достижения этой цели. Но в таком случае, как эти предположения помогают? Как их поддержка помогает получить лучшую модель?
regression
assumptions
Часы Раб
источник
источник
Ответы:
Вы правы - вам не нужно удовлетворять этим предположениям, чтобы соответствовать линии наименьших квадратов для точек. Вам нужны эти предположения для интерпретации результатов. Например, если предположить, что между входными и нет взаимосвязи , какова вероятность получения коэффициента по крайней мере, же, как мы видели из регрессии?X1 Y β1
источник
Попробуйте изображение квартета Анскомба из Википедии, чтобы получить представление о некоторых потенциальных проблемах с интерпретацией линейной регрессии, когда некоторые из этих предположений явно неверны: большинство основных описательных статистических данных одинаковы во всех четырех (а отдельные значения во всех одинаковые, кроме правого нижнего)xi
источник
Вам не нужны эти предположения, чтобы соответствовать линейной модели. Тем не менее, ваши оценки параметров могут быть смещены или не иметь минимальной дисперсии. Нарушение допущений усложнит интерпретацию результатов регрессии, например, построение доверительного интервала.
источник
Хорошо, ответы до сих пор звучат так: если мы нарушаем предположения, тогда могут случиться плохие вещи. Я считаю, что интересное направление таково: когда все необходимые нам предположения (на самом деле немного отличающиеся от приведенных выше) выполнены, почему и как мы можем быть уверены, что линейная регрессия - лучшая модель?
Я думаю, что ответ на этот вопрос выглядит следующим образом: если мы сделаем предположения, как в ответе на этот вопрос, то мы можем вычислить условную плотность . Из этого мы можем вычислить (факторизация условного ожидания в ) и увидеть, что это действительно функция линейной регрессии. Затем мы используем это , чтобы увидеть, что это лучшая функция по отношению к истинному риску.p(yi|xi) E[Yi|Xi=xi] xi
источник
Два ключевых предположения
См. Обсуждение в книге Джулиана Фарауэя .
Если они оба верны, OLS удивительно устойчив к нарушениям в других предположениях, которые вы перечислили.
источник