Предположим, у меня есть 10 учеников, каждый из которых пытается решить 20 математических задач. Задачи оцениваются правильно или неправильно (в длинных данных), и результаты каждого учащегося можно суммировать с помощью показателя точности (в подчиненных данных). Модели 1, 2 и 4 ниже дают разные результаты, но я понимаю, что они делают то же самое. Почему они дают разные результаты? (Я включил модель 3 для справки.)
library(lme4)
set.seed(1)
nsubjs=10
nprobs=20
subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5))
longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ]
longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4)
subjdata$acc = by(longdata$correct,longdata$subj,mean)
model1 = lm(logit(acc)~iq,subjdata)
model2 = glm(acc~iq,subjdata,family=gaussian(link='logit'))
model3 = glm(acc~iq,subjdata,family=binomial(link='logit'))
model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))
r
regression
logistic
generalized-linear-model
binomial
user20061
источник
источник
library(betareg)
model5 = betareg(acc~scale(iq),subjdata)
library(car)
необходим для функции logit.Ответы:
Модели 1 и 2 отличаются, потому что первая преобразует ответ, а вторая преобразует его ожидаемое значение.
Для модели 1 логит каждого ответа обычно распределяется со средним значением являясь линейной функцией вектора предиктора и коэффициента. & следовательно Для модели 2 сам ответ обычно распространяется с логитом его среднего значения, являющимся линейной функцией предиктора и векторов коэффициентов &, следовательно,
Так что структура дисперсии будет другой. Представьте себе моделирование из Модели 2: дисперсия не будет зависеть от ожидаемого значения; И хотя ожидаемые значения ответов будут между 0 и 1, ответы не будут все.
Обобщенные линейные смешанные модели, подобные вашей модели 4, снова отличаются, потому что они содержат случайные эффекты: см. Здесь и здесь .
источник
longdata
), а не с пропорциями, как в вашей модели 3.+1 к @Scortchi, который дал очень четкий и краткий ответ. Я хочу сделать пару дополнительных замечаний. Во-первых, для вашей второй модели вы указываете, что ваше распределение ответов является гауссовым (иначе нормальным). Это должно быть ложно, потому что каждый ответ оценивается как правильный или неправильный. То есть каждый ответ - это испытание Бернулли. Таким образом, ваше распределение ответов является биномиальным. Эта идея точно отражена и в вашем коде. Далее, вероятность, которая управляет распределением ответов, обычно распределяется, поэтому ссылка должна быть пробитной, а не логитовой. Наконец, если бы это была реальная ситуация, вам нужно было бы учитывать случайные эффекты как для предметов, так и для вопросов, поскольку они вряд ли будут идентичны. То, как вы генерировали эти данные, единственным значимым аспектом каждого человека является их IQ, которые вы учли явно. Таким образом, не осталось ничего, что могло бы быть объяснено случайным эффектом в модели. Это также верно для вопросов, потому что случайные изменения сложности вопроса не являются частью процесса генерации данных в вашем коде.
Я не хочу придираться здесь. Я признаю, что ваша установка просто разработана, чтобы облегчить ваш вопрос, и она послужила этой цели; @Scortchi смогла ответить на ваши вопросы очень напрямую, с минимальными усилиями. Тем не менее, я указываю на эти вещи, потому что они предоставляют дополнительные возможности для понимания ситуации, с которой вы сталкиваетесь, и потому, что вы, возможно, не поняли, что ваш код соответствует некоторым частям вашей основной сюжетной линии, но не другим.
источник