Смешанная модель и объединение стандартных ошибок для многосайтовых исследований. Почему смешанная модель намного эффективнее?

16

У меня есть набор данных, состоящий из серии ежемесячных подсчетов случаев «сломанной палки» с нескольких сайтов. Я пытаюсь получить единую сводную оценку из двух разных методов:

Техника 1: Установите «сломанную палку» с Poisson GLM с переменной индикатора 0/1 и используя переменную времени и времени ^ 2 для контроля трендов во времени. Оценка этой переменной индикатора 0/1 и SE объединяются с использованием метода прямых моментов вверх или вниз или с использованием пакета tlnise в R для получения «байесовской» оценки. Это похоже на то, что Пэн и Доминичи делают с данными о загрязнении воздуха, но с меньшим количеством участков (~ дюжина).

Метод 2: Отказаться от некоторых специфических для сайта средств управления тенденциями во времени и использовать линейную смешанную модель. В частности:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

Мой вопрос связан со стандартными ошибками, которые вытекают из этих оценок. Стандартная ошибка методики 1, которая на самом деле использует недельное, а не месячное установленное время и, следовательно, должна иметь большую точность, имеет стандартную ошибку при оценке ~ 0,206 для подхода «Метод моментов» и ~ 0,306 для метода.

Метод Лмера дает стандартную ошибку ~ 0,09. Оценки эффекта достаточно близки, поэтому не похоже, что они просто сосредоточены на различных суммарных оценках, поскольку смешанная модель значительно более эффективна.

Это то, что разумно ожидать? Если так, то почему смешанные модели намного эффективнее? Это общий феномен или конкретный результат этой модели?

фомиты
источник
На этот вопрос сложно ответить, не зная точно, какую модель вы подходите в своей технике 1. Вы упомянули 3 возможности, но, насколько я могу судить, никогда не останавливайтесь на одной. Затем вы скажете: «Стандартная ошибка [...] методики 1 составляет ~ 0,206». Для какой именно модели это стандартная ошибка? Будете ли вы публиковать синтаксис, который вы использовали для подгонки этой модели, как вы делали для Technique 2? Еще лучше было бы предоставить воспроизводимый пример (не обязательно ваш исходный набор данных), к которому мы могли бы сами приспособить обе модели.
Джейк Уэстфолл
@JakeWestfall Вы правы, когда я впервые написал это, это был своего рода вопрос сознания, когда проблема развивалась. Я сделаю небольшое редактирование и посмотрю, может ли оно быть более полезным. К сожалению, код где-то
заблудился
Сделана небольшая зачистка - в дизайне моделей используются те же переменные. К сожалению, код, данные и т. Д. Находятся на другой машине, и я на конференции. Я думаю, что основной вопрос можно свести к следующему: «Оценка для нескольких площадок: всегда ли смешанные модели всегда / часто более эффективны, чем объединение?»
Fomite

Ответы:

5

Я знаю, что это старый вопрос, но он относительно популярен и имеет простой ответ, так что, надеюсь, он будет полезен другим в будущем. Для более глубокого изучения взгляните на курс Кристофа Липперта «Линейные смешанные модели», который рассматривает их в контексте исследований ассоциаций всего генома здесь . В частности, см. Лекцию 5 .

Причина того, что смешанная модель работает намного лучше, заключается в том, что она разработана с учетом того, что именно вы пытаетесь контролировать: структура населения. «Популяции» в вашем исследовании - это разные сайты, использующие, например, немного отличающиеся, но последовательные реализации одного и того же протокола. Кроме того, если объектами вашего исследования являются люди, люди, объединенные из разных сайтов, с меньшей вероятностью будут связаны, чем люди из того же сайта, поэтому кровная родственность также может сыграть свою роль.

N(Y|Иксβ,σ2), линейные смешанные модели добавляют в дополнительную матрицу, называемую матрицей ядра К, который оценивает сходство между людьми, и соответствует "случайным эффектам", так что похожие люди будут иметь аналогичные случайные эффекты. Это порождает модельN(Y|Иксβ+ZU,σ2я+σграмм2К),

Поскольку вы пытаетесь явно контролировать структуру популяции, неудивительно, что линейная смешанная модель превзошла другие методы регрессии.

Майкл К
источник