Предполагает ли предположение о нормальных ошибках, что Y также является нормальным?

12

Если я не ошибаюсь, предполагается, что в линейной модели распределение отклика имеет систематический компонент и случайный компонент. Термин ошибки фиксирует случайную составляющую. Следовательно, если мы предположим, что термин ошибки нормально распределен, не означает ли это, что ответ также нормально распределен? Я думаю, что это так, но тогда утверждения, подобные приведенному ниже, кажутся довольно запутанными:

И вы можете ясно видеть, что единственное предположение о «нормальности» в этой модели состоит в том, что остатки (или «ошибки» ) должны быть нормально распределены. Не существует предположения о распределении предиктора или переменной ответа .ϵiй яxiyi

Источник: Предикторы, ответы и остатки: Что действительно должно быть нормально распределено?

Эрнест А
источник
7
Если нестохастичны, нормальность подразумевает нормальность зависимой переменной. Для стохастических независимых переменных это не будет иметь место в общем случае, оно зависит от распределения независимых переменных. ϵxϵ

Ответы:

19

Стандартная модель OLS - с для фиксированного .ε N ( 0 , σ 2 I n ) X R n × pY=Xβ+εεN(0,σ2In) XRn×p

Это действительно означает, что , хотя это является следствием нашего предположения о распределении , а не на самом деле предположение. Кроме того, имейте в виду , что я говорю об условном распределении , а не маргинальное распределение . Я сосредотачиваюсь на условном распределении, потому что я думаю, что это то, о чем вы действительно спрашиваете.ε Y YY|{X,β,σ2}N(Xβ,σ2In)εYY

Я думаю, что смущает то, что это не означает, что гистограмма будет выглядеть нормально. Мы говорим, что весь вектор представляет собой одно изображение из многомерного нормального распределения, где каждый элемент имеет потенциально различное среднее значение . Это не то же самое, что обычный образец iid. Ошибки самом деле являются образцом iid, поэтому их гистограмма будет выглядеть нормально (и именно поэтому мы делаем график QQ остатков, а не отклика).Y E ( Y i | X i ) = X T i β εYYE(Yi|Xi)=XiTβε

Вот пример: предположим, что мы измеряем высоту для выборки 6-х и 12-х классов. Наша модель - с . Если мы посмотрим на гистограмму мы, вероятно, увидим бимодальное распределение, с одним пиком для 6-х классов и одним пиком для 12-х классов, но это не является нарушением наших предположений.H i = β 0 + β 1 I ( 12-й класс ) + ε i ε iiid N ( 0 , σ 2 ) H iHHi=β0+β1I(12th grader)+εiεi iid N(0,σ2)Hi

JLD
источник
Может кто-нибудь уточнить, пожалуйста, обозначение ? σ2In
snoram
Это означает, что единичная матрица умножена на скаляр . σ 2n×nσ2
JDD
В единичную матрицу раз некоторые различия. n×n
Sycorax говорит восстановить Monica
11

Следовательно, если мы предположим, что термин ошибки нормально распределен, не означает ли это, что ответ также нормально распределен?

Даже отдаленно. Насколько я помню, это то, что невязки обычно зависят от детерминированной части модели . Вот демонстрация того, как это выглядит на практике.

Я начинаю с случайного генерирования некоторых данных. Затем я определяю результат, который является линейной функцией предикторов, и оцениваю модель.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Давайте посмотрим, как выглядят эти остатки. Я подозреваю, что они должны быть нормально распределены, так как в результате yбыл добавлен нормальный шум. И это действительно так.

введите описание изображения здесь

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Однако, проверяя распределение y, мы видим, что это определенно не нормально! Я наложил функцию плотности с тем же средним и дисперсией y, но это, очевидно, ужасное соответствие!

Плотность у

Причина, по которой это произошло в этом случае, заключается в том, что входные данные даже не являются нормальными. Ничто в этой регрессионной модели не требует нормальности, кроме остатков - ни в независимой переменной, ни в зависимой переменной.

Denisty of x

Sycorax говорит восстановить Монику
источник
8

Нет, это не так. Например, предположим, у нас есть модель, предсказывающая вес олимпийских спортсменов. Хотя вес вполне может быть нормально распределен между спортсменами в каждом виде спорта, он не будет среди всех спортсменов - он может даже не быть унимодальным.

Питер Флом - Восстановить Монику
источник