Почему линейная регрессия имеет допущение об остаточной, а обобщенная линейная модель имеет допущения об отклике?

14

Почему линейная регрессия и обобщенная модель имеют противоречивые предположения?

  • В линейной регрессии мы предполагаем, что остаток происходит от гауссовой
  • В другой регрессии (логистическая регрессия, регрессия яда) мы предполагаем, что ответ приходит из некоторого распределения (биномиальное, отравление и т. Д.).

Почему иногда предполагают остаточное, а другое время предполагают на ответ? Это потому, что мы хотим получить разные свойства?


РЕДАКТИРОВАТЬ: я думаю, что mark999 показывает, что две формы равны. Тем не менее, у меня есть еще одно сомнение по поводу iid:

Мой другой вопрос: Есть ли предположение о логистической регрессии? показывает, что обобщенная линейная модель не имеет предположения iid (независимо, но не идентична)

Правда ли, что для линейной регрессии, если мы представим предположение об остатке , у нас будет iid, но если мы представим предположение об ответе , у нас будут независимые, но не идентичные выборки (разные гауссианы с разными )?μ

Хайтау Ду
источник
См. Также stats.stackexchange.com/questions/295340/…
kjetil b halvorsen

Ответы:

12

Простая линейная регрессия с гауссовыми ошибками - очень хороший атрибут, который не обобщается на обобщенные линейные модели.

В обобщенных линейных моделях отклик следует некоторому заданному распределению с учетом среднего . Линейная регрессия следует этой схеме; если мы имеем

yi=β0+β1xi+ϵi

ϵiN(0,σ)

тогда мы также имеем

yiN(β0+β1xi,σ)

ϵix . Но, надеюсь, в оценках достаточно точности, что это игнорируется!).

yi «s, мы не можем сказать , если они являются нормальными , если все они имеют разные средства. Например, рассмотрим следующую модель:

yi=0+2×xi+ϵi

ϵiN(0,0.2)xiBernoulli(p=0.5)

yi будет сильно бимодальным, но не нарушит предположения о линейной регрессии! С другой стороны, остатки будут следовать примерно нормальному распределению.

Вот некоторый Rкод для иллюстрации.

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

histograms

Клифф AB
источник
пример Yязнак равно1+2×Икся+εя, действительно открыл мой разум. Никогда не думайте таким образом, где все еще используете идентификационную ссылку, а остаточное предположение не нарушается!
Haitao Du
3
@ hxd1011: да, это разница между предельным распределением (явно ненормальным) и условным распределением с учетом x (мы знаем, что это нормально, так как мы имитировали его!). Не думать о разнице между условным и маргинальным распределением - чрезвычайно распространенная ошибка.
Клифф AB
14

Предположения не являются противоречивыми. Если дляязнак равно1,...,N, вы предполагаете

Yязнак равноβ0+β1Икся1+...+βКИксяК+εя,
с ошибками εя нормально распределяется со средним 0 и дисперсией σ2это то же самое, что предположить, что Икся1,...,ИксяК, ответ Yя обычно распределяется со средним β0+β1Икся1+...+βКИксяК и дисперсия σ2,

Это потому что Икся1,...,ИксяКмы лечим β0+β1Икся1+...+βКИксяК как постоянный.

Обычная модель множественной линейной регрессии с нормальными ошибками представляет собой обобщенную линейную модель с нормальным откликом и идентичной связью.

mark999
источник