Это скорее концептуальный вопрос, но по мере использования R
я буду ссылаться на пакеты в R
. Если цель состоит в том, чтобы подогнать линейную модель для целей прогнозирования, а затем делать прогнозы в тех случаях, когда случайные эффекты могут быть недоступны, есть ли польза от использования модели смешанных эффектов или вместо нее следует использовать модель с фиксированными эффектами?
Например, если у меня есть данные о весе или росте с некоторой другой информацией, и следующую модель, используя lme4
, где субъект - это фактор с уровнями ( ):
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
Затем я хочу иметь возможность прогнозировать вес по модели, используя новые данные о росте и возрасте. Очевидно, что дисперсия по субъектам в исходных данных фиксируется в модели, но возможно ли использовать эту информацию в прогнозе? Допустим, у меня есть новые данные о росте и возрасте, и я хочу прогнозировать вес, я могу сделать это следующим образом:
predict(mod1,newdata=newdf) # newdf columns for height, age, subject
Это будет использовать predict.merMod
, и я могу либо включить столбец для (новых) предметов newdf
, или установить re.form =~0
. В первом случае неясно, что модель делает с «новыми» предметными факторами, и во втором случае, будет ли отклонение от субъекта, зафиксированное в модели, просто игнорироваться (усредняться) для прогноза?
В любом случае мне кажется, что линейная модель с фиксированным эффектом может быть более подходящей. Действительно, если мое понимание верно, то модель с фиксированным эффектом должна предсказывать те же значения, что и смешанная модель, если случайный эффект не используется в прогнозе. Должно ли это быть так? В R
нем нет, например:
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject
дает разные результаты для:
mod2 <- lm(weight ~ height + age, data=df)
predict(mod2,newdata=newdf) # newdf columns for height, age
источник
Ответы:
Простой мысленный эксперимент: вы измерили вес и рост 5 младенцев после рождения. И вы измеряли это у тех же самых детей снова через два года. Между тем, вы измеряли вес и рост своей маленькой дочери почти каждую неделю, в результате чего для нее было получено 100 пар ценностей. Если вы используете модель со смешанными эффектами, проблем нет. Если вы используете модель с фиксированными эффектами, вы добавляете чрезмерный вес к измерениям от своей дочери до такой степени, что вы получите почти такую же модель, если бы использовали только данные от нее. Таким образом, важно не только сделать вывод, чтобы правильно моделировать повторные измерения или структуры неопределенности, но и сделать прогноз. В целом, вы не получаете одинаковые прогнозы из модели смешанных эффектов и модели с фиксированными эффектами (с нарушенными допущениями).
Вы не можете прогнозировать предметы, которые не были частью исходных (обучающих) данных. Опять мысленный эксперимент: новый предмет ожирением. Как модель могла знать, что она находится в верхней части распределения случайных эффектов?
Если я вас правильно понимаю, тогда да. Модель дает оценку ожидаемого значения для населения (обратите внимание, что эта оценка все еще зависит от исходных предметов).
источник
You can't predict for subjects which were not part of the original (training) data
; Разве установкаre.form=~0
и прогнозирование на основе ожидаемого значения населения не позволяют мне сделать это? Конечно, модель не использует какую-либо специфическую для субъекта информацию в прогнозе, но справедливо ли сказать, что оценка по модели смешанного эффекта будет все же более точной, чем оценка по эквивалентной модели с фиксированным эффектом, где вариация по конкретному субъекту была игнорируются?re.form=~0
дает вам прогноз на уровне населения, который является лучшим, что вы можете сделать для новых предметов.glmmLasso
пакета в R. Автор пакета, Андреас Гролл, заявил, что процедура glmmLasso использует только фиксированные эффекты для прогнозирования новых предметов и фиксированные + случайные эффекты для существующих предметов в следующем периоде времени.