Допущения остаточного распределения регрессии

12

Почему необходимо сделать предположение о распределении ошибок, т.е.

ϵ iN ( 0 , σ 2 )yi=Xβ+ϵi , с .ϵiN(0,σ2)

Почему бы не написать

у я ~ Н ( Х β , сг 2 )yi=Xβ+ϵi , с ,yiN(Xβ^,σ2)

где в любом случае . Я видел, как подчеркивалось, что предположения о распределении делаются на ошибках, а не на данных, но без объяснения причин. ϵi=yiy^

Я не совсем понимаю разницу между этими двумя формулировками. В некоторых местах я вижу, что на данные помещаются предположения о распределении (Байесовское освещение. В основном это кажется), но в большинстве случаев предположения делаются на ошибки.

При моделировании, почему / следует выбрать, чтобы начать с предположений о том или ином?

bill_e
источник
Во-первых, это не «необходимо», это зависит от того, что вы собираетесь делать. Есть несколько хороших ответов, но я думаю, что суть лежит в основе предположения о причинности в смысле X, «вызывающих» y, и если вы посмотрите на это так, вы увидите, что распределение y «вызвано» распределение прав, то есть X и ошибок (если есть). Вы можете сделать много эконометрики с очень ограниченными распределительными допущениями и, в частности, без нормальности. Слава Богу.
PatrickT
3
XРуЕ( у )=Е(у)=Хβy^ - это не , а среднее значение не совпадает с выборочной оценкой. Это означает, что второе на самом деле не то же самое, что первое, но если вы замените его на его ожидание ( ), эти два значения будут эквивалентны. XβyE(y^)=E(y)=Xβ
Glen_b
Что такое ? И если зависит от , почему меняется? Пожалуйста, решите, какую нотацию вы хотите использовать, вектор или матрицу. Теперь, если мы предположим, что ваша запись больше, чем bizzare: y_i т.е. вы определяете распределение в терминах самого себя и всех других наблюдений ! уяяХβ у =Х β уя~N(х ' я (ΣхJх ' J )-1ΣхJуJ,сг2)уягJy^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2)yiyj
mpiktas
1
Я отклонил вопрос, потому что я думаю, что запись сбивает с толку, и это уже привело к нескольким слегка противоречивым ответам.
mpiktas

Ответы:

9

В условиях линейной регрессии обычно проводят анализ и выводят результаты, зависящие от , то есть от «данных». Таким образом, вам нужно, чтобы был нормальным, то есть вам нужно чтобы быть нормальным. Как показывает пример Питера Флома, можно иметь нормальность не имея нормальности , и, следовательно, так как вам нужна нормальность , это разумное предположение.y X ϵ ϵ y ϵXyXϵϵyϵ

ekvall
источник
9

Я бы написал второе определение как

yiN(Xiβ,σ2)

или (как Карл Оскар предлагает +1)

yi|XiN(Xiβ,σ2)

то есть предположение моделирования состоит в том, что переменная отклика обычно распределена вокруг линии регрессии (которая является оценкой условного среднего) с постоянной дисперсией . Это не то же самое, что предположить, что обычно распределены, потому что среднее значение распределения зависит от .у я х яσ2yiXi

Я думаю, что видел подобные формулировки в литературе по машинному обучению; насколько я вижу, это эквивалентно первому определению, все, что я сделал, это перефразировал вторую формулировку немного по-другому, чтобы исключить 's и .уϵiy^

Дикран Сумчатый
источник
3

Разницу проще всего проиллюстрировать на примере. Вот простой:

Предположим, что Y бимодально, причем модальность учитывается независимой переменной. Например, предположим, что Y - рост, а ваш образец (по любой причине) состоит из жокеев и баскетболистов. например, вR

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

первая плотность очень ненормальная. Но остатки от модели очень близки к нормальным.

Относительно того, почему ограничения установлены таким образом - я позволю кому-то еще ответить на этот вопрос.

Питер Флом - Восстановить Монику
источник
1
Спасибо! Я понимаю, что вы имеете в виду с бимодальным распределением. Последующий вопрос: Что, если дисперсия данных различна (гетероскедастичность?) Скажи ... все жокеи маленькие, правда, но высота баскетболистов сильно варьируется. Может быть, для них высокий <- rnorm (100,78,10). Как такая ситуация меняет ваши предположения относительно или ? ϵyiϵi
bill_e
В этом случае гетероскедастичность была бы проблемой, и вам нужно было бы использовать какую-то другую форму регрессии или, возможно, какое-то преобразование, или вы могли бы добавить другую переменную (в этом глупом примере позиция, сыгранная в баскетболе, могла бы это сделать).
Питер Флом - Восстановить Монику
Я не уверен, что формулировка предназначена для того, чтобы предположить, что ys распределены нормально, просто они имеют нормальное условное распределение.
Дикран Marsupial
2

Вам нужно добавить подозрительный i к вашей второй формулировке: потому что должна иметь возможность изменяться вместе с .
у х я

yiN(y^i,σε2)
y^xi

Что было отмечено, что такое ? Это . Это приводит к формулировке @DikranMarsupial: Стоит признать, что это точно так же, как ваш первый формулировка, потому что оба предусматривают нормальные распределения и ожидаемые значения равны. То есть: (И, очевидно, различия равны.) Другими словами, этохяy^ixiβ^

yiN(xiβ^,σε2)

E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]
не разница в допущениях, а просто нотационная разница.

Таким образом, возникает вопрос, есть ли причина предпочитать представлять идею, используя первую формулировку?

Я думаю, что ответ " да" по двум причинам:

  1. Люди часто путают, должны ли исходные данные нормально распределяться (т. ), или если данные, зависящие от /, должны нормально распределяться ошибки (т. / ), например, см. : Что если остатки нормально распределены, а у нет?X Y | X εYXY|Xε
  2. Люди также часто путают то, что должно быть независимым, необработанные данные или ошибки. Более того, мы часто упоминаем тот факт, что что-то должно быть внутри (независимым и одинаково распределенным); если вы думаете с точки зрения это может быть еще одним потенциальным источником путаницы, так как может быть независимым, но не может быть одинаково распределенным, если не выполняется нулевая гипотеза (поскольку среднее значение будет меняться). Y | ИксY|XY|X

Я полагаю, что эти путаницы, скорее всего, используют вторую формулировку, чем первую.

Gung - Восстановить Монику
источник
1
@Glen_b, я не слежу за вашим комментарием. Я утверждаю, что не равен , а скорее что равен . Индексируемый индексированный наблюдений является актуальным. Идея состоит в том, что прогнозируемое значение для данного наблюдения равно . Это не имеет никакого отношения к ж / среднее популяции . (Похоже, что я забыл добавить шляпы в свои бета-версии; сейчас я это исправил.) Йβ у ях яy^Xβy^iя у яхя β Yxiβ^iy^ixiβ^Y
gung - Восстановить Монику
@Glen_b, если бы это был образец, это означало бы а не . Сначала я обнаружил, что обозначения также сбивают с толку, но тот факт, что следует из утверждений, что и . Чтобы обе эти вещи были правдой, может быть только . у у =Хβуя=Хβ+εяεя=уя - у у Хβy¯y^y^=Xβyi=Xβ+ϵiϵi=yiy^y^Xβ
Дикран Marsupial