Зачем нужны предположения в линейной регрессии?

15

В линейной регрессии мы делаем следующие предположения

  • Среднее значение ответа E(Yi) каждого набора значений предикторов (x1i,x2i,) является линейной функцией предикторов.
  • Ошибки являются независимыми.εi
  • Ошибки при каждом наборе значений предикторов (x_ {1i}, x_ {2i},…) распределяются нормально.εi(x1i,x2i,)
  • Ошибки εi при каждом наборе значений предикторов (x1i,x2i,) имеют равные дисперсии (обозначенные σ2 ).
  • Одним из способов решения линейной регрессии является использование нормальных уравнений, которые можно записать в виде

    θ=(XTX)1XTY

    С математической точки зрения вышеприведенному уравнению требуется только XTX чтобы быть обратимым. Итак, зачем нам эти предположения? Я спросил нескольких коллег, и они упомянули, что это хороший результат, а нормальные уравнения - это алгоритм для достижения этой цели. Но в таком случае, как эти предположения помогают? Как их поддержка помогает получить лучшую модель?

    Часы Раб
    источник
    2
    Нормальное распределение необходимо для расчета доверительных интервалов коэффициентов по обычным формулам. Другие формулы расчета CI (я думаю, это был белый цвет) допускают ненормальное распределение.
    keiv.fly
    Вам не всегда нужны эти предположения, чтобы модель работала. В нейронных сетях у вас есть линейные регрессии внутри, и они минимизируют значение rmse, как и формула, которую вы предоставили, но, скорее всего, ни одно из предположений не выполняется. Нет нормального распределения, нет равных дисперсии, нет линейной функции, даже ошибки могут быть зависимыми.
    keiv.fly
    1
    @Alexis Независимые переменные, являющиеся iid, определенно не являются предположением (и зависимая переменная, являющаяся iid, также не является предположением - представьте, если бы мы предположили, что ответ был iid, было бы бессмысленно делать что-либо, кроме оценки среднего значения). И «отсутствие пропущенных переменных» на самом деле не является дополнительным допущением, хотя хорошо избегать пропуска переменных - первое перечисленное предположение действительно решает эту проблему.
    Дейсон
    1
    @Dason Я думаю, что моя ссылка является довольно убедительным примером того, что «без пропущенных переменных» необходимо для правильной интерпретации. Я также думаю, что iid (зависит от предикторов, да) необходим, при случайных обходах, являющихся отличным примером того, где неидеальная оценка может потерпеть неудачу (когда-либо прибегая к оценке только среднего).
    Алексис

    Ответы:

    19

    Вы правы - вам не нужно удовлетворять этим предположениям, чтобы соответствовать линии наименьших квадратов для точек. Вам нужны эти предположения для интерпретации результатов. Например, если предположить, что между входными и нет взаимосвязи , какова вероятность получения коэффициента по крайней мере, же, как мы видели из регрессии?X1Yβ1

    rinspy
    источник
    17

    Попробуйте изображение квартета Анскомба из Википедии, чтобы получить представление о некоторых потенциальных проблемах с интерпретацией линейной регрессии, когда некоторые из этих предположений явно неверны: большинство основных описательных статистических данных одинаковы во всех четырех (а отдельные значения во всех одинаковые, кроме правого нижнего) xi

    https://upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Anscombe%27s_quartet_3.svg/1280px-Anscombe%27s_quartet_3.svg.png

    Генри
    источник
    После Анскомба я сделал иллюстрацию, показывающую, как может выглядеть нарушение предположения об отсутствии пропущенных переменных . Все еще работает над анскомбоподобной иллюстрацией нарушения предположения iid .
    Алексис
    3

    Вам не нужны эти предположения, чтобы соответствовать линейной модели. Тем не менее, ваши оценки параметров могут быть смещены или не иметь минимальной дисперсии. Нарушение допущений усложнит интерпретацию результатов регрессии, например, построение доверительного интервала.

    Привет, мир
    источник
    1

    Хорошо, ответы до сих пор звучат так: если мы нарушаем предположения, тогда могут случиться плохие вещи. Я считаю, что интересное направление таково: когда все необходимые нам предположения (на самом деле немного отличающиеся от приведенных выше) выполнены, почему и как мы можем быть уверены, что линейная регрессия - лучшая модель?

    Я думаю, что ответ на этот вопрос выглядит следующим образом: если мы сделаем предположения, как в ответе на этот вопрос, то мы можем вычислить условную плотность . Из этого мы можем вычислить (факторизация условного ожидания в ) и увидеть, что это действительно функция линейной регрессии. Затем мы используем это , чтобы увидеть, что это лучшая функция по отношению к истинному риску.p(yi|xi)E[Yi|Xi=xi]xi

    Фабиан Вернер
    источник
    0

    Два ключевых предположения

    1. Независимость наблюдений
    2. Среднее не связано с дисперсией

    См. Обсуждение в книге Джулиана Фарауэя .

    Если они оба верны, OLS удивительно устойчив к нарушениям в других предположениях, которые вы перечислили.

    astaines
    источник