У меня есть набор данных, состоящий из серии ежемесячных подсчетов случаев «сломанной палки» с нескольких сайтов. Я пытаюсь получить единую сводную оценку из двух разных методов:
Техника 1: Установите «сломанную палку» с Poisson GLM с переменной индикатора 0/1 и используя переменную времени и времени ^ 2 для контроля трендов во времени. Оценка этой переменной индикатора 0/1 и SE объединяются с использованием метода прямых моментов вверх или вниз или с использованием пакета tlnise в R для получения «байесовской» оценки. Это похоже на то, что Пэн и Доминичи делают с данными о загрязнении воздуха, но с меньшим количеством участков (~ дюжина).
Метод 2: Отказаться от некоторых специфических для сайта средств управления тенденциями во времени и использовать линейную смешанную модель. В частности:
lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)
Мой вопрос связан со стандартными ошибками, которые вытекают из этих оценок. Стандартная ошибка методики 1, которая на самом деле использует недельное, а не месячное установленное время и, следовательно, должна иметь большую точность, имеет стандартную ошибку при оценке ~ 0,206 для подхода «Метод моментов» и ~ 0,306 для метода.
Метод Лмера дает стандартную ошибку ~ 0,09. Оценки эффекта достаточно близки, поэтому не похоже, что они просто сосредоточены на различных суммарных оценках, поскольку смешанная модель значительно более эффективна.
Это то, что разумно ожидать? Если так, то почему смешанные модели намного эффективнее? Это общий феномен или конкретный результат этой модели?
источник
Ответы:
Я знаю, что это старый вопрос, но он относительно популярен и имеет простой ответ, так что, надеюсь, он будет полезен другим в будущем. Для более глубокого изучения взгляните на курс Кристофа Липперта «Линейные смешанные модели», который рассматривает их в контексте исследований ассоциаций всего генома здесь . В частности, см. Лекцию 5 .
Причина того, что смешанная модель работает намного лучше, заключается в том, что она разработана с учетом того, что именно вы пытаетесь контролировать: структура населения. «Популяции» в вашем исследовании - это разные сайты, использующие, например, немного отличающиеся, но последовательные реализации одного и того же протокола. Кроме того, если объектами вашего исследования являются люди, люди, объединенные из разных сайтов, с меньшей вероятностью будут связаны, чем люди из того же сайта, поэтому кровная родственность также может сыграть свою роль.
Поскольку вы пытаетесь явно контролировать структуру популяции, неудивительно, что линейная смешанная модель превзошла другие методы регрессии.
источник