Из элементарной статистики я узнал, что с общей линейной моделью, чтобы выводы были достоверными, наблюдения должны быть независимыми. Когда происходит кластеризация, независимость может больше не сохраняться, приводя к неверному выводу, если это не учитывается. Одним из способов учета такой кластеризации является использование смешанных моделей. Я хотел бы найти примерный набор данных, смоделированный или нет, который наглядно демонстрирует это. Я попытался использовать один из примеров наборов данных на сайте UCLA для анализа кластерных данных
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
Если я что-то упустил, эти результаты достаточно схожи, поэтому я не думаю, что вывод с lm()
недействительным. Я посмотрел на некоторые другие примеры (например, 5.2 из Центра многоуровневого моделирования Бристольского университета ) и обнаружил, что стандартные ошибки также не сильно отличаются (меня не интересуют сами случайные эффекты от смешанной модели, но стоит отметить, что ICC от выхода смешанной модели составляет 0,42).
Итак, у меня следующие вопросы: 1) при каких условиях стандартные ошибки будут заметно отличаться при кластеризации, и 2) кто-то может привести пример такого набора данных (смоделированный или нет).
источник
Ответы:
Прежде всего, вы правы, этот набор данных может быть не лучшим для понимания смешанной модели. Но давайте сначала посмотрим, почему
Вы видите, что у вас есть 310 наблюдений и 187 групп, из которых 132 имеют только одно наблюдение. Это не означает, что мы не должны использовать многоуровневое моделирование, просто мы не получим очень разные результаты, как вы заявили.
Многоуровневое моделирование мотивации
Мотивация использования многоуровневого моделирования начинается с самого дизайна, а не только с результатов проведенного анализа. Конечно, наиболее распространенным примером является получение множества наблюдений от отдельных лиц, но чтобы сделать вещи более экстремальными, чтобы сделать ситуацию более понятной, подумайте о том, чтобы спросить людей из разных стран мира об их доходах. Поэтому лучшими примерами являются те, которые имеют много неоднородностей, так как выбор кластеров, которые являются однородными в результате исследования, конечно, не будет иметь большого значения.
пример
y
x
Итак, запустив линейную модель, вы получите
и вы заключаете, что не
x
имеет никакого статистического эффекта вy
. Посмотрите, насколько велика стандартная ошибка. Но работает модель случайного перехватаВы видите, насколько изменилась стандартная ошибка оценки. Рассматривая часть случайного эффекта, мы видим, как изменялась изменчивость - большая часть изменчивости в доходах происходит между странами, и внутри стран люди имеют более похожие доходы. Проще говоря, здесь произошло то, что не учитывая эффект кластеризации,
x
мы «теряемся» (если мы можем использовать этот вид термина), но разлагая изменчивость, вы обнаруживаете то, что на самом деле должны получить.источник