Проверка невязок на нормальность в обобщенных линейных моделях

12

Эта статья использует обобщенные линейные модели (как биномиальное, так и отрицательное биномиальное распределение ошибок) для анализа данных. Но затем в разделе методов статистического анализа есть следующее утверждение:

... и, во-вторых, путем моделирования данных присутствия с использованием моделей логистической регрессии и данных о времени нагула с использованием обобщенной линейной модели (GLM). Отрицательное биномиальное распределение с функцией логарифмирования было использовано для моделирования данных о времени нагула (Welsh et al. 1996), а адекватность модели была проверена путем изучения результатов (McCullagh & Nelder 1989). Тесты Шапиро – Вилка или Колмогорова – Смирнова использовались для проверки нормальности в зависимости от размера выборки; данные были преобразованы логарифмически до анализа, чтобы придерживаться нормальности.

Если они принимают биномиальное и отрицательное биномиальное распределение ошибок, то, конечно, они не должны проверять нормальность остатков?

Лучиано
источник
2
Обратите внимание, что ошибки не биномиально распределены - каждый ответ биномиально распределен с параметром вероятности, заданным соответствующими значениями предиктора, согласно ответам на один из ваших других вопросов .
Scortchi - Восстановить Монику
3
В биномиальной или негативной биномиальной регрессии нет ничего, что должно быть нормальным. Если это ответ, который они трансформируют, это может быть очень контрпродуктивным; это испортит GLM.
Glen_b
1
Из вашей цитаты не ясно, что они на самом деле проверяют на нормальность (вы уверены, что это остатки?) Или для какого анализа они преобразуют данные (вы уверены, что это GLM?).
Scortchi - Восстановить Монику
Я немного расширил цитату. Может ли кто-то подтвердить, что то, что сделали авторы статьи, было неправильно или правильно?
Лучано
Я боюсь, что это все еще не очень ясно - свяжитесь с авторами для деталей того, как они провели анализ, если это не объяснено в другом месте в статье или ее ссылках.
Scortchi - Восстановить Монику

Ответы:

16

Обратите внимание, что отклонения отклонения (или Пирсона) не будут иметь нормального распределения, кроме гауссовой модели. Для случая логистической регрессии, как говорит @Stat, остатки отклонения для го наблюдения определяются какiyi

riD=2|log(1π^i)|

если &yi=0

riD=2|log(π^i)|

если , где - вероятность Бернулли. Поскольку каждое из них может принимать только одно из двух значений, ясно, что их распределение не может быть нормальным даже для правильно определенной модели:yi=1πi^

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ сюжет n = 1

Но если существует повторяющихся наблюдений для го шаблона предиктора, & остаток отклонения определяется так, чтобы собрать ихnii

riD=sgn(yiniπ^i)2[yilogyinπ^i+(niyi)logniyini(1π^i)]

(где - теперь число успешных попыток от 0 до ), тогда, когда становится больше, распределение остатков приближается к норме:yinini

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ участок n = 30

То же самое происходит с пуассоновскими или отрицательными биномиальными GLM: для низких предсказанных подсчетов распределение остатков является дискретным и искаженным, но имеет тенденцию к нормальности для больших подсчетов в правильно заданной модели.

Это не обычно, по крайней мере, не в моей шее леса, чтобы провести формальную проверку остаточной нормальности; если тестирование нормальности по существу бесполезно, когда ваша модель предполагает точную нормальность, тогда тем более бесполезно, когда это не так. Тем не менее, для ненасыщенных моделей графическая остаточная диагностика полезна для оценки наличия и характера неадекватности, принимая нормальность с помощью щепотки или пригоршни соли в зависимости от количества повторений на шаблон предиктора.

Scortchi - Восстановить Монику
источник
1

То, что они сделали, правильно! Я дам вам ссылку на двойную проверку. См. Раздел 13.4.4 в разделе « Введение в анализ линейной регрессии», 5-е издание.Дуглас С. Монтгомери, Элизабет А. Пек, Дж. Джеффри Вайнинг. В частности, посмотрите на примеры на странице 460, где они соответствуют биномиальному glm и дважды проверьте допущение нормальности «Остатки отклонения». Как упоминалось на странице 458, это происходит потому, что «остатки отклонения ведут себя так же, как обычные остатки в стандартной модели линейной регрессии нормальной теории». Так что имеет смысл, если вы строите их в обычном масштабе вероятности, а также против подгоночных значений. Снова смотрите страницу 456 вышеупомянутой ссылки. В примерах, которые они предоставили на стр. 460 и 461, не только для биномиального случая, но также для коэффициентов Пуассона и Gamma с (link = log), они проверили нормальность остатков отклонения.
Для биномиального случая остаток отклонения определяется как:

riD=2|ln(1πi^)|
если и если . Теперь немного кода в R, чтобы показать вам, как вы можете получить его:yi=0уя=1
riD=2|ln(πi^)|
yi=1
> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 

Проверьте здесь для случая Пуассона, а также.

Stat
источник
2
Ваш пример - странный выбор. Ли вы сделать PP или QQ сюжет этих девиаций остатков; если так, что вы сделали вывод?
Scortchi - Восстановить Монику
5
Дело в том, что в этом случае не было бы смысла проверять нормальность остатков - они явно не распределены нормально, и не должны. Только когда число наблюдений для каждого шаблона предиктора увеличивается, распределение остатков (один остаток, рассчитанный для каждого шаблона предиктора) стремится к норме. Точно так же для пуассоновской или отрицательной биномиальной модели - значения должны быть большими, чтобы нормальное приближение было хорошим.
Scortchi - Восстановить Монику
2
Вопрос заключается в том, должны ли остатки из обобщенных линейных моделей быть нормально распределенными. Ваш ответ представляется безоговорочным «да» (хотя ваши источники, несомненно, дают необходимую квалификацию, не каждый читатель будет их проверять). Затем вы приводите пример, в котором нет никаких оснований ожидать, что остатки будут нормально распределены, даже если модель была правильно задана: неосторожный читатель предположит, что они должны быть, и что, как это явно не так, это поэтому пример обнаружения неправильной спецификации модели путем изучения остатков (хотя вы ...
Scortchi - Восстановите Монику
2
... не сказал, что это). Поэтому я думаю, что ответ требует много разъяснений, чтобы быть полезным.
Scortchi - Восстановить Монику
2
Комментарии IMO @ Scortchi здесь разумны. Глядя на то, что я вижу в книге Монтгомери на предварительном просмотре книг Google, они создают график QQ, но не выполняют фактический тест на нормальность, как упомянуто в оригинальном постере. Конечно, построение графика QQ целесообразно в качестве диагностического теста, но в большинстве реальных ситуаций присутствует даже отклонение. не будет нормальным
Энди W