Я использую смешанную модель в R
( lme4
) для анализа некоторых данных повторных измерений. У меня есть переменная реакции (содержание волокна в кале) и 3 фиксированных эффекта (масса тела и т. Д.). В моем исследовании всего 6 участников, по 16 повторных измерений для каждого (хотя у двух только 12 повторений). Субъектами являются ящерицы, которым давали разные комбинации пищи в разных «обработках».
Мой вопрос: могу ли я использовать идентификатор субъекта в качестве случайного эффекта?
Я знаю, что это обычный курс действий в моделях продольных смешанных эффектов, чтобы принять во внимание случайную выборку природы субъектов и тот факт, что наблюдения внутри субъектов будут более тесно коррелировать, чем наблюдения между субъектами. Но трактовка идентификатора субъекта как случайного эффекта предполагает оценку среднего значения и дисперсии для этой переменной.
Поскольку у меня есть только 6 предметов (6 уровней этого фактора), достаточно ли этого, чтобы получить точную характеристику среднего значения и дисперсии?
Помогает ли в этом отношении тот факт, что у меня есть довольно много повторных измерений для каждого субъекта (я не понимаю, как это имеет значение)?
Наконец, если я не могу использовать идентификатор субъекта в качестве случайного эффекта, позволит ли его включение в качестве фиксированного эффекта контролировать тот факт, что я повторил измерения?
Изменить: я просто хотел бы уточнить, что когда я говорю «могу ли я» использовать идентификатор субъекта в качестве случайного эффекта, я имею в виду «это хорошая идея для». Я знаю, что могу подобрать модель с коэффициентом всего 2 уровня, но наверняка это будет неоправданно? Я спрашиваю, в какой момент становится разумным думать о том, чтобы рассматривать предметы как случайные эффекты? Кажется, литература советует, что 5-6 уровней - это нижняя граница. Мне кажется, что оценки среднего значения и дисперсии случайного эффекта не будут очень точными, пока не будет более 15 уровней факторов.
В «Эконометрии в основном безвредных» Ангриста и Пишке есть раздел под названием «Менее 42 кластеров», в котором они полушутливо говорят:
Поэтому, следуя ... изречению о том, что ответом на жизнь, вселенную и все остальное является 42, мы считаем, что вопрос заключается в следующем: сколько кластеров достаточно для надежного вывода с использованием стандартной корректировки кластеров [сродни оценке дисперсии в GEE]?
Мой инструктор по эконометрике отвечал на ваши вопросы так: «Америка - свободная страна, вы можете делать все, что захотите. Но если вы хотите, чтобы ваша статья была опубликована, вы должны быть в состоянии защитить то, что вы сделали. " Другими словами, вы, вероятно, сможете запускать код R или Stata, или HLM, или Mplus, или SAS PROC GLIMMIX с 6 субъектами (и переключаться на эти альтернативные пакеты, если один из ваших вариантов не запускается), но, скорее всего, у вас будет очень трудное время отстаивать этот подход и оправдывать асимптотические тесты.
Я считаю, что по умолчанию включение переменной в качестве случайного наклона также подразумевает включение этой переменной в качестве фиксированного эффекта, и вам нужно перепрыгивать через множество синтаксических циклов, если вы хотите, чтобы это было случайным эффектом со средним значением нуль. Это разумный выбор, который разработчики программного обеспечения сделали для вас.
источник
Вы также можете использовать байесовскую смешанную модель - в этом случае неопределенность в оценке случайных эффектов полностью учитывается при расчете вероятных интервалов прогнозирования 95%. Например, новый пакет
brms
и функция Rbrm
позволяют очень легко перейти отlme4
частой смешанной модели к байесовской, поскольку она имеет почти идентичный синтаксис.источник
Я бы не использовал модель случайных эффектов только с 6 уровнями. Модели, использующие 6-уровневый случайный эффект, могут иногда запускаться с использованием многих статистических программ и иногда дают объективные оценки, но:
Эта проблема решена в большинстве стандартных учебников в этой области, и вы как бы обратились к ним в своем вопросе. Я не думаю, что даю вам новую информацию.
источник
lme4
смешанных моделях, и я часто запускаю их на образцах схожего размера с OP (я также работаю с наборами данных биологии).Прошло много времени с момента первоначального вопроса, но я подумал, что могу добавить несколько моментов, касающихся выбора модели.
1 - Пока модель идентифицирована (т. Е. У вас есть степени свободы в пространстве параметров), вы сможете ПОПРОБОВАТЬ, чтобы соответствовать модели. В зависимости от метода оптимизации модель может сходиться или не сходиться. В любом случае я бы не попытался включить более 1 или 2 случайных эффектов и определенно не более 1 перекрестного взаимодействия. В конкретном случае проблемы, представленной здесь, если мы подозреваем, что взаимодействия между специфическими характеристиками ящерицы (например, возраст, размер и т. Д.) И размером 6 групп характеристик лечения / измерения может быть недостаточно, чтобы сделать достаточно точные оценки.
2 - Как отмечают несколько ответов, конвергенция может быть проблемой. Однако мой опыт показывает, что хотя у данных по общественным наукам есть огромная проблема сходимости из-за проблем измерения, у наук о жизни и особенно биохимических повторных измерений гораздо меньше стандартных ошибок. Все зависит от процесса генерации данных. В социальных и экономических данных мы должны работать на разных уровнях абстракции. В биологических и химических и, безусловно, астрономических данных ошибка измерения является меньшей проблемой.
источник