REML против ML stepAIC

10

Я чувствую себя ошеломленным после того, как попытаюсь покопаться в литературе о том, как проводить анализ смешанной модели, следуя его примеру с использованием AIC, чтобы выбрать лучшую модель или модели. Я не думаю, что мои данные настолько сложны, но я ищу подтверждение того, что я сделал правильно, а затем советую, как поступить. Я не уверен, должен ли я использовать Ime или Lmer, а затем с любым из них, если я должен использовать REML или ML.

У меня есть значение выбора, и я хочу знать, какие ковариаты лучше всего влияют на это значение и позволяют делать прогнозы. Вот некоторые примерные данные и мой код для моего теста, с которым я работаю:

ID=as.character(rep(1:5,3))
season=c("s","w","w","s","s","s","s","w","w","w","s","w","s","w","w")
time=c("n","d","d","n","d","d","n","n","n","n","n","n","d","d","d")
repro=as.character(rep(1:3,5))
risk=runif(15, min=0, max=1.1)
comp1=rnorm(15, mean = 0, sd = 1)
mydata=data.frame(ID, season, time, repro, risk, comp1)
c1.mod1<-lmer(comp1~1+(1|ID),REML=T,data=mydata)
c1.mod2<-lmer(comp1~risk+(1|ID),REML=T,data=mydata)
c1.mod3<-lmer(comp1~season+(1|ID),REML=T,data=mydata)
c1.mod4<-lmer(comp1~repro+(1|ID),REML=T,data=mydata)
c1.mod5<-lmer(comp1~time+(1|ID),REML=T,data=mydata)
c1.mod6<-lmer(comp1~season+repro+time+(1|ID),REML=T,data=mydata)
c1.mod7<-lmer(comp1~risk+season+season*time+(1|ID),REML=T,data=mydata)

У меня есть ~ 19 моделей, которые изучают эти данные с различными комбинациями и до двухсторонних терминов взаимодействия, но всегда с ID в качестве случайного эффекта и comp1 в качестве моей зависимой переменной.

  • Q1. Какой использовать? или я? это имеет значение?

В обоих случаях у меня есть возможность использовать ML или REML - и я получаю совершенно разные ответы - используя ML и AIC, я получаю 6 моделей со схожими значениями AIC, а комбинации моделей просто не имеют смысла, тогда как REML в результате 2 из наиболее вероятных моделей являются лучшими. Однако при запуске REML я больше не могу использовать anova.

  • Q2. является основной причиной использования ML поверх REML из-за использования с ANOVA? Это мне не понятно.

Я до сих пор не могу запустить stepAIC или не знаю другого способа сузить эти 19 моделей.

  • Q3. Есть ли способ использовать stepAIC на этом этапе?
Керри
источник
3
Для Q2 ML необходим, потому что сравнения с использованием REML не действительны при изменении фиксированных эффектов. Возможный полезный связанный с этим вопрос здесь: stats.stackexchange.com/a/16015/3601
Аарон оставил переполнение стека
@ Аарон, я смотрел на этот вопрос раньше, но все еще был в замешательстве. Использовать REML только "работает", когда меняется случайный эффект? Я, очевидно, не понимаю достаточно ML против REML. Спасибо, хотя, это помогает с одним из моих вопросов!
Керри
Да, это правильно. При сравнении моделей REML следует использовать только в том случае, если модели имеют одинаковые фиксированные эффекты. Ответ расширен ниже.
Аарон оставил переполнение стека

Ответы:

16

Q1. Какой использовать? или я? это имеет значение? Либо в порядке. Они дадут вам такие же припадки. lmeдаст вам p-значения, и lmerне будет, но это больше, чем я хотел бы получить здесь. Самая известная ссылка - одна из публикаций Дуга Бейтса в списке рассылки R-help здесь .

(Предостережение: они действительно используют немного разные алгоритмы, так что потенциально могут быть некоторые сложные в вычислительном отношении случаи, когда один или другой может работать лучше, но на практике это очень редко, и на самом деле, скорее всего, указывают на какую-то неправильную спецификацию модели. См. Совершенно разные результаты lmer () и lme () .)

Q2. является основной причиной использования ML поверх REML из-за использования с ANOVA? Это мне не понятно. ML необходим, потому что сравнения с использованием REML не действительны при изменении фиксированных эффектов. Возможный полезный связанный вопрос находится здесь: https://stats.stackexchange.com/a/16015/3601 . Чтобы ответить на ваш вопрос в комментарии выше, да, при сравнении моделей REML следует использовать только в том случае, если модели имеют одинаковые фиксированные эффекты (то есть, когда изменяются только случайные эффекты). Вероятность REML зависит от того, какие фиксированные эффекты присутствуют в модели, и поэтому не сравнимы, если фиксированные эффекты изменяются. Обычно считается, что REML дает более точные оценки для случайных эффектов, поэтому обычно советуют подбирать вашу лучшую модель, используя REML для вашего окончательного вывода и отчетности.

Q3. Есть ли способ использовать stepAIC на этом этапе? Чтобы сравнить ваши 19 моделей, которые имеют смысл в вашей ситуации, просто сравните AIC для всех из них. Нет причин использовать пошаговую процедуру на всех. В настоящее время пошаговые процедуры обычно считаются устаревшими, поскольку они не гарантируют, что найдена лучшая модель, а компьютеры позволяют легко сравнивать множество моделей.

Аарон оставил переполнение стека
источник
1

В дальнейшем изучении я также нашел эти ресурсы, которые поддерживают ссылки, предоставленные Аароном, и являются хорошим чтением для тех, кто начинает как я. Главы, ссылки на которые приведены на http://lme4.r-forge.r-project.org/, с примерами можно найти по ссылке на слайды http://lme4.r-forge.r-project.org/slides/ на той же странице проекта. , На многих коротких курсах даже есть пример кода R, который очень помог.
Также этот короткий ответ доктора Болкера http://r.789695.n4.nabble.com/lme-vs-lmer-how-do-they-differ-td2534332.html

Керри
источник