Почему вы прогнозируете по модели смешанного эффекта, не включая случайные эффекты для прогноза?

10

Это скорее концептуальный вопрос, но по мере использования Rя буду ссылаться на пакеты в R. Если цель состоит в том, чтобы подогнать линейную модель для целей прогнозирования, а затем делать прогнозы в тех случаях, когда случайные эффекты могут быть недоступны, есть ли польза от использования модели смешанных эффектов или вместо нее следует использовать модель с фиксированными эффектами?

Например, если у меня есть данные о весе или росте с некоторой другой информацией, и следующую модель, используя lme4, где субъект - это фактор с уровнями ( ):nn=no.samples

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

Затем я хочу иметь возможность прогнозировать вес по модели, используя новые данные о росте и возрасте. Очевидно, что дисперсия по субъектам в исходных данных фиксируется в модели, но возможно ли использовать эту информацию в прогнозе? Допустим, у меня есть новые данные о росте и возрасте, и я хочу прогнозировать вес, я могу сделать это следующим образом:

predict(mod1,newdata=newdf) # newdf columns for height, age, subject

Это будет использовать predict.merMod, и я могу либо включить столбец для (новых) предметов newdf, или установить re.form =~0. В первом случае неясно, что модель делает с «новыми» предметными факторами, и во втором случае, будет ли отклонение от субъекта, зафиксированное в модели, просто игнорироваться (усредняться) для прогноза?

В любом случае мне кажется, что линейная модель с фиксированным эффектом может быть более подходящей. Действительно, если мое понимание верно, то модель с фиксированным эффектом должна предсказывать те же значения, что и смешанная модель, если случайный эффект не используется в прогнозе. Должно ли это быть так? В Rнем нет, например:

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject

дает разные результаты для:

mod2 <- lm(weight ~ height + age, data=df)

predict(mod2,newdata=newdf) # newdf columns for height, age


tribalsoul
источник
1
Можно было бы сделать прогноз для новой группы, которая не была включена в оценку
kjetil b halvorsen
Да, но в таком случае зачем использовать модель со смешанным эффектом? Что это дает вам, что модель с фиксированным эффектом не дает, если вы игнорируете случайные эффекты в прогнозе?
tribalsoul
1
Ну, это может дать лучшие оценки, потому что у вас есть лучшая (более правильная) модель структуры ошибок
kjetil b halvorsen

Ответы:

5

Простой мысленный эксперимент: вы измерили вес и рост 5 младенцев после рождения. И вы измеряли это у тех же самых детей снова через два года. Между тем, вы измеряли вес и рост своей маленькой дочери почти каждую неделю, в результате чего для нее было получено 100 пар ценностей. Если вы используете модель со смешанными эффектами, проблем нет. Если вы используете модель с фиксированными эффектами, вы добавляете чрезмерный вес к измерениям от своей дочери до такой степени, что вы получите почти такую ​​же модель, если бы использовали только данные от нее. Таким образом, важно не только сделать вывод, чтобы правильно моделировать повторные измерения или структуры неопределенности, но и сделать прогноз. В целом, вы не получаете одинаковые прогнозы из модели смешанных эффектов и модели с фиксированными эффектами (с нарушенными допущениями).

и я могу включить колонку для (новых) тем в newdf

Вы не можете прогнозировать предметы, которые не были частью исходных (обучающих) данных. Опять мысленный эксперимент: новый предмет ожирением. Как модель могла знать, что она находится в верхней части распределения случайных эффектов?

будет ли отклонение по субъекту, зафиксированное в модели, просто игнорироваться (усредняться) для прогноза

Если я вас правильно понимаю, тогда да. Модель дает оценку ожидаемого значения для населения (обратите внимание, что эта оценка все еще зависит от исходных предметов).

Roland
источник
1
Спасибо за четкое объяснение и пример, все это имеет смысл. Тем не менее, где вы заявляете You can't predict for subjects which were not part of the original (training) data; Разве установка re.form=~0и прогнозирование на основе ожидаемого значения населения не позволяют мне сделать это? Конечно, модель не использует какую-либо специфическую для субъекта информацию в прогнозе, но справедливо ли сказать, что оценка по модели смешанного эффекта будет все же более точной, чем оценка по эквивалентной модели с фиксированным эффектом, где вариация по конкретному субъекту была игнорируются?
Tribalsoul
1
Фиксированная модель не применима, поскольку ее допущения нарушаются. Вы должны использовать модель, которая включает структуру зависимости. re.form=~0дает вам прогноз на уровне населения, который является лучшим, что вы можете сделать для новых предметов.
Роланд
У меня был тот же вопрос при использовании glmmLasso пакета в R. Автор пакета, Андреас Гролл, заявил, что процедура glmmLasso использует только фиксированные эффекты для прогнозирования новых предметов и фиксированные + случайные эффекты для существующих предметов в следующем периоде времени.
RobertF