Совсем недавно я начал изучать обобщенные линейные смешанные модели и использовал R для изучения того, какое значение имеет отношение к членству в группе как к фиксированному, так и к случайному эффекту. В частности, я смотрю на пример набора данных, который обсуждался здесь:
http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm
http://www.ats.ucla.edu/stat/r/dae/melogit.htm
Как показано в этом уроке, эффект «Доктор ID» заметен, и я ожидал, что смешанная модель со случайным перехватом даст лучшие результаты. Однако сравнение значений AIC для двух методов показывает, что эта модель хуже:
> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)
Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial,
data = hdp)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5265 -0.6278 -0.2272 0.5492 2.7329
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.560e+01 1.219e+03 -0.013 0.990
Age -5.869e-02 5.272e-03 -11.133 < 2e-16 ***
Married1 2.688e-01 6.646e-02 4.044 5.26e-05 ***
IL6 -5.550e-02 1.153e-02 -4.815 1.47e-06 ***
DID2 1.805e+01 1.219e+03 0.015 0.988
DID3 1.932e+01 1.219e+03 0.016 0.987
[...]
DID405 1.566e+01 1.219e+03 0.013 0.990
DID405 1.566e+01 1.219e+03 0.013 0.990
DID406 -2.885e-01 3.929e+03 0.000 1.000
DID407 2.012e+01 1.219e+03 0.017 0.987
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 10353 on 8524 degrees of freedom
Residual deviance: 6436 on 8115 degrees of freedom
AIC: 7256
Number of Fisher Scoring iterations: 17
> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m
Generalized linear mixed model fit by the Laplace approximation
Formula: remission ~ Age + Married + IL6 + (1 | DID)
Data: hdp
AIC BIC logLik deviance
7743 7778 -3867 7733
Random effects:
Groups Name Variance Std.Dev.
DID (Intercept) 3.8401 1.9596
Number of obs: 8525, groups: DID, 407
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.461438 0.272709 5.359 8.37e-08 ***
Age -0.055969 0.005038 -11.109 < 2e-16 ***
Married1 0.260065 0.063736 4.080 4.50e-05 ***
IL6 -0.053288 0.011058 -4.819 1.44e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) Age Marrd1
Age -0.898
Married1 0.070 -0.224
IL6 -0.162 0.012 -0.033
> extractAIC(GLM) ; extractAIC(GLMM)
[1] 410.000 7255.962
[1] 5.000 7743.188
Итак, мои вопросы:
(1) Уместно ли сравнивать значения AIC, предоставляемые двумя функциями? Если так, то почему модель с фиксированным эффектом работает лучше?
(2) Как лучше всего определить, являются ли фиксированные или случайные эффекты более важными (т. Е. Количественно определить, что изменчивость, обусловленная врачом, важнее, чем характеристики пациента)?
источник
DID
качестве как фиксированный эффект, и случайного перехвата во 2 - й модели. Более того, наличие фиксированного эффекта в 1-й модели означает, что выбор b / t этих 2 будет о том, каким образом думать о влиянииDID
, а не о том, нужно ли его включать. С другой стороны, я заметил, что у вас есть предмет (2); Вы хотели иметь предмет (1) где-нибудь?Модели очень разные. Модель glm учитывает общее снижение отклонения (от нулевой модели), когда оцениваются все эффекты doctorID и им назначаются оценки параметров. Вы, конечно, замечаете, что Age, Married и IL6 имеют одинаковую статистику Wald в двух моделях, верно? Насколько я понимаю (я не признаю, что это очень утонченный вариант), смешанная модель рассматривает значения doctorID как факторы или слои неприятности, а именно «эффекты», которые нельзя предположить из какого-либо конкретного родительского распределения. Я не вижу оснований полагать, что использование смешанной модели улучшит ваше понимание «эффекта врача», на самом деле совсем наоборот.
Если бы вы интересовались эффектами Age, Married или IL6, я бы предположил, что вы не будете сравнивать AIC по этим двум моделям, а скорее по различиям в AIC с удалением интересующих ковариат в рамках одной и той же структуры моделирования.
источник