TL; DR : минимальный размер выборки на кластер в модели со смешанными эффектами равен 1, при условии, что число кластеров является адекватным, а доля одноэлементных кластеров не является «слишком высокой»
Более длинная версия:
В целом, количество кластеров является более важным, чем количество наблюдений на кластер. С 700 явно у тебя там проблем нет.
Небольшие размеры кластеров встречаются довольно часто, особенно в социологических исследованиях, которые следуют многослойной структуре выборки, и существует ряд исследований, в которых изучался размер выборки на уровне кластеров.
Хотя увеличение размера кластера увеличивает статистическую мощность для оценки случайных эффектов (Austin & Leckie, 2018), небольшие размеры кластеров не приводят к серьезному смещению (Bell et al, 2008; Clarke, 2008; Clarke & Wheaton, 2007; Maas & Hox , 2005). Таким образом, минимальный размер выборки на кластер равен 1.
В частности, Белл и др. (2008) выполнили имитационное исследование Монте-Карло с долями одиночных кластеров (кластеров, содержащих только одно наблюдение) в диапазоне от 0% до 70%, и обнаружили, что при условии, что количество кластеров было большим (~ 500) небольшие размеры кластеров почти не влияли на смещение и контроль ошибок типа 1.
Они также сообщили об очень небольшом количестве проблем с конвергенцией моделей при любом из своих сценариев моделирования.
Для конкретного сценария в OP, я бы предложил сначала запустить модель с 700 кластерами. Если бы не было явной проблемы с этим, я был бы не склонен объединять кластеры. Я запустил простую симуляцию в R:
Здесь мы создаем кластерный набор данных с остаточной дисперсией 1, один фиксированный эффект также из 1 700 кластеров, из которых 690 являются синглетонами, а 10 имеют только 2 наблюдения. Мы запускаем симуляцию 1000 раз и наблюдаем гистограммы предполагаемых фиксированных и остаточных случайных эффектов.
> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) {
dtB$x <- rnorm(nrow(dtB), 0, 1)
dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1
fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
fixef.v[i] <- fixef(fm0B)[[2]]
ranef.v[i] <- attr(VarCorr(fm0B), "sc")
}
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)
Как видите, фиксированные эффекты очень хорошо оценены, в то время как остаточные случайные эффекты выглядят немного смещенными вниз, но не так резко:
> summary(fixef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6479 0.9439 0.9992 1.0005 1.0578 1.2544
> summary(ranef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2796 0.7745 0.9004 0.8993 1.0212 1.4837
ОП конкретно упоминает оценку случайных эффектов на уровне кластера. В приведенном выше моделировании случайные эффекты создавались просто как значение каждого Subject
ID (уменьшенного в 100 раз). Очевидно, что они обычно не распределены, что является предположением о линейных моделях смешанных эффектов, однако мы можем извлечь (условные режимы) эффекты уровня кластера и построить их по фактическим Subject
идентификаторам:
> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)
Гистограмма несколько отклоняется от нормы, но это связано с тем, как мы моделировали данные. Между оценочными и фактическими случайными эффектами все еще существует разумная связь.
Ссылки:
Питер С. Остин и Джордж Леки (2018) Влияние числа кластеров и размера кластера на статистическую мощность и частоту ошибок типа I при тестировании компонентов дисперсии случайных эффектов в многоуровневых моделях линейной и логистической регрессии, Журнал статистических вычислений и моделирования, 88: 16, 3151-3163, DOI: 10.1080 / 00949655.2018.1504945
Белл, Б.А., Феррон, JM, & Kromrey, JD (2008). Размер кластера в многоуровневых моделях: влияние разреженных структур данных на точечные и интервальные оценки в двухуровневых моделях . JSM Proceedings, раздел, посвященный методам исследования, 1122-1129.
Кларк, П. (2008). Когда можно игнорировать кластеризацию на уровне группы? Многоуровневые модели по сравнению с одноуровневыми моделями с разреженными данными . Журнал эпидемиологии и общественного здравоохранения, 62 (8), 752-758.
Кларк П. и Уитон Б. (2007). Решение проблемы разреженности данных в контекстных исследованиях населения с использованием кластерного анализа для создания синтетических окрестностей . Социологические методы и исследования, 35 (3), 311-351.
Maas, CJ & Hox, JJ (2005). Достаточные размеры выборки для многоуровневого моделирования . Методология, 1 (3), 86-92.
В смешанных моделях случайные эффекты чаще всего оцениваются с использованием эмпирической байесовской методологии. Особенностью этой методологии является усадка. А именно, оцененные случайные эффекты сокращаются до общего среднего значения модели, описанной частью с фиксированными эффектами. Степень усадки зависит от двух составляющих:
Величина дисперсии случайных эффектов по сравнению с величиной дисперсии членов ошибки. Чем больше дисперсия случайных эффектов по отношению к дисперсии членов ошибки, тем меньше степень усадки.
Количество повторных измерений в кластерах. Оценки случайных эффектов кластеров с более повторяющимися измерениями меньше сужаются к общему среднему значению по сравнению с кластерами с меньшим количеством измерений.
В вашем случае второй пункт более актуален. Однако обратите внимание, что предложенное вами решение по объединению кластеров также может повлиять на первую точку.
источник