Расчет размера выборки для смешанных моделей

23

Мне интересно, есть ли какие-либо методы для расчета размера выборки в смешанных моделях? Я использую lmerв R, чтобы соответствовать моделям (у меня есть случайные наклоны и перехваты).

Никита Кузнецов
источник
3
Имитация всегда является опцией - то есть имитация данных в соответствии с конкретной альтернативной гипотезой и размером выборки и многократное повторение модели, чтобы увидеть, как часто вы отклоняете интересующую нулевую гипотезу. Исходя из моего опыта, это довольно (на компьютере) отнимает много времени, так как для каждой модели подходит не менее нескольких секунд.
Макро

Ответы:

29

В longpowerпакет реализует вычисления размера выборки в Лю и Liang (1997) и др Диггл (2002). В документации есть пример кода. Вот один, используя lmmpower()функцию:

> require(longpower)
> require(lme4)
> fm1 <- lmer(Reaction ~ Days + (Days|Subject), sleepstudy) 
> lmmpower(fm1, pct.change = 0.30, t = seq(0,9,1), power = 0.80)

     Power for longitudinal linear model with random slope (Edland, 2009) 

              n = 68.46972
          delta = 3.140186
         sig2.s = 35.07153
         sig2.e = 654.941
      sig.level = 0.05
              t = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9
          power = 0.8
    alternative = two.sided
       delta.CI = 2.231288, 4.049084
           Days = 10.46729
        Days CI = 7.437625, 13.496947
           n.CI = 41.18089, 135.61202

Также проверьте, liu.liang.linear.power()который " выполняет расчет размера выборки для линейной смешанной модели"

Liu G. & Liang KY (1997). Расчет размера выборки для исследований с коррелированными наблюдениями. Биометрия, 53 (3), 937-47.

Diggle PJ, Heagerty PJ, Liang K, Zeger SL. Анализ продольных данных. Второе издание. Оксфорд. Статистическая наука Serires. 2002

Изменить: Другой способ - «исправить» эффект кластеризации. В обычной линейной модели каждое наблюдение является независимым, но при наличии кластерных наблюдений не являются независимыми, что можно рассматривать как меньшее количество независимых наблюдений - эффективный размер выборки меньше. Эта потеря эффективности известна как эффект дизайна :

м ρ D E

DE=1+(m1)ρ
где - средний размер кластера, а - коэффициент внутриклассовой корреляции (коэффициент разделения дисперсии). Таким образом, размер выборки, полученный с помощью расчета, который игнорирует кластеризацию, надувается чтобы получить размер выборки, который учитывает кластеризацию.mρDE
Роберт Лонг
источник
3
Этот эффект дизайна имеет отношение только к общей линейной статистике (значит, итоги). Для коэффициентов регрессии DEFF больше похож на где - ICC регрессора, а - ICC члена ошибки (составная ошибка = кластерный случайный эффект + специфический эффект наблюдения). Из-за произведения корреляций, которые имеют тенденцию быть маленькими, этот DEFF также является небольшим. ρ x ρ ϵ
DEFF=1+(m1)ρxρϵ,
ρxρϵ
StasK
Можете ли вы указать мне на цитату для этой формулы?
Джошуа Розенберг
10

Для всего, кроме простых 2-х тестовых выборок, я предпочитаю использовать симуляцию для исследования размера выборки или мощности. С предварительно упакованными процедурами вы можете иногда видеть большие различия между результатами программ, основанными на допущениях, которые они делают (и вы не сможете узнать, каковы эти допущения, не говоря уже о том, являются ли они обоснованными для вашего исследования). С помощью симуляции вы контролируете все предположения.

Вот ссылка на пример:
https://stat.ethz.ch/pipermail/r-sig-mixed-models/2009q1/001790.html

Грег Сноу
источник
Просто интересно, это также работает для моделей GLMER?
Чарли Глез
1
@CarlosGlez, да, это работает для любой модели, где вы можете моделировать данные и анализировать их. Я сделал это для моделей GLMER.
Грег Сноу
Правильно сказано, и я добавлю, что в дополнение к «контрольным предположениям» вы также можете задавать вопросы «что если», нарушать эти предположения и определять практическое чувство надежности, например, действительно ли ненормальные случайные эффекты разрушают эффективность.
AdamO