Как объединить доверительные интервалы для дисперсионного компонента модели смешанных эффектов при использовании множественного вменения

20

Логика множественного вменения (МИ) состоит в том, чтобы вменять пропущенные значения не один раз, а несколько (обычно М = 5) раз, что приводит к М завершенным наборам данных. Затем M завершенных наборов данных анализируются с использованием методов полных данных, на которых M оценок и их стандартные ошибки объединяются с использованием формул Рубина для получения «общей» оценки и ее стандартной ошибки.

Пока здорово, но я не уверен, как применять этот рецепт, когда речь идет о компонентах дисперсии модели смешанных эффектов. Распределение выборки дисперсионного компонента является асимметричным - поэтому соответствующий доверительный интервал нельзя дать в типичной форме «оценка ± 1,96 * se (оценка)». По этой причине пакеты R lme4 и nlme даже не предоставляют стандартных ошибок компонентов отклонения, а только обеспечивают доверительные интервалы.

Поэтому мы можем выполнить MI для набора данных, а затем получить M доверительных интервалов для каждого компонента дисперсии после подгонки той же модели смешанного эффекта к M завершенным наборам данных. Вопрос в том, как объединить эти М интервалы в один «общий» доверительный интервал.

Я думаю, это должно быть возможно - авторы статьи (yucel & demirtas (2010) Влияние ненормальных случайных эффектов на умозаключение по MI), похоже, сделали это, но они не объясняют, как именно.

Любые советы будут очень благодарны!

Ура, Рок

Rok
источник
Очень интересный вопрос Я с нетерпением жду ваших результатов, если вы хотите поделиться ими ...
chl
@chl: я могу отправить вам таблицы с результатами, когда я закончу, но я не буду изобретать ничего нового на самом деле. Пока что я просто планирую сравнить MI в двухуровневой модели вменения (панорамирование пакета R) с MI в простой нормальной модели (игнорируя двухуровневую структуру, норма пакета R) и удаления по списку. При разных размерах выборки, значениях дисперсионного компонента и т. Д. Этого должно быть достаточно для семинара (я аспирант), но не совсем новаторский. Если у вас есть какие-либо идеи о том, как «оживить» изучение симуляции, я хотел бы услышать.
Рок
1
Еще одна вещь: я не уверен, что правильное аналитическое решение этой проблемы даже существует. Я посмотрел на некоторую дополнительную литературу, но эта проблема элегантно просматривается повсюду. Я также заметил, что yucel & demirtas (в упомянутой статье на стр. 798) пишут: «Эти многократные вмененные наборы данных были использованы для оценки модели […] с использованием пакета R lme4, что привело к 10 наборам (бета, se (бета)» ), (sigma_b, se (sigma_b)), которые затем были объединены с использованием правил объединения МИ, определенных Рубином. ”
Рок
Кажется, они использовали какой-то ярлык для оценки SE дисперсионного компонента (что, конечно, неуместно, поскольку CI является асимметричным), а затем применили классическую формулу.
Рок
Хорошо, спасибо за это. Можете ли вы поставить свои комментарии в ответ, чтобы за него проголосовали?
CHL

Ответы:

8

Это большой вопрос! Не уверен, что это полный ответ, однако я опускаю эти несколько строк на случай, если это поможет.

Похоже, что Yucel и Demirtas (2010) ссылаются на более раннюю статью, опубликованную в JCGS, « Вычислительные стратегии для многомерных линейных моделей со смешанными эффектами с отсутствующими значениями» , в которой используется гибридный подход к оценке EM / Fisher для получения основанных на вероятности оценок VC. , Он был реализован в пакете R mlmmm . Я не знаю, однако, если он производит КИ.

В противном случае я бы определенно проверил программу WinBUGS , которая в основном используется для многоуровневых моделей, в том числе с отсутствующими данными. Кажется, я помню, что это будет работать только в том случае, если ваш MV находится в переменной ответа, а не в ковариатах, потому что мы обычно должны указывать полные условные распределения (если MV присутствует в независимых переменных, это означает, что мы должны дать до недостающие X, и это будет рассматриваться как параметр, который будет оцениваться WinBUGS ...). Похоже, это относится и к R, если я обращаюсь к следующему потоку по r-sig-mixed, отсутствующим данным в lme, lmer, PROC MIXED . Также, возможно, стоит взглянуть на программное обеспечение MLwiN .

хл
источник
Большое спасибо за ваш ответ! В принципе меня также интересует, как решить конкретную проблему, подобную той, которую я описал (таким образом, спасибо за совет WinBUGS). Но в данный момент я пытаюсь провести имитационное исследование для документа для семинара, в котором я рассмотрю эффективность (уровень охвата и т. Д.) МИ в соответствии с неправильной спецификацией модели. Полагаю, я просто забуду о компонентах дисперсии, если не смогу найти решение и сосредоточиться на фиксированных эффектах, но расстраиваться сложно.
Рок
@Rok Отличная идея для симуляции! Я с нетерпением жду этого конкретного вопроса. Я полагаю, что вы уже искали рассылку r-sig-mixed и книгу Гельмана о многоуровневой регрессии ...
chl
Я смотрел сейчас, танки для ссылок! К сожалению, в архивах r-sig-mix нет ничего о MI; и Гельман дает только базовую формулу о том, как объединить выводы из ИМ, когда у нас есть изменения в пределах и между данными вменениями (§25.7).
Рок
6

Повторный комментарий сверху:

Я не уверен, что правильное аналитическое решение этой проблемы даже существует. Я посмотрел на некоторую дополнительную литературу, но эта проблема элегантно игнорируется везде. Я также заметил, что Yucel & Demirtas (в упомянутой статье на стр. 798) пишут:

Эти многократные вмененные наборы данных были использованы для оценки модели […] с использованием пакета R, lme4приводящего к 10 наборам (beta, se (beta)), (sigma_b, se (sigma_b)), которые затем были объединены с использованием правил объединения MI, определенных Вбивать в голову.

Кажется, они использовали какой-то ярлык для оценки SE дисперсионного компонента (что, конечно, неуместно, поскольку CI является асимметричным), а затем применили классическую формулу.

Rok
источник
Я ценю, что вы вернулись, чтобы поделиться своим опытом с этой проблемой. К сожалению, у меня нет реального решения, но, возможно, появятся другие предложения.
хл
«Изящно упущен из виду» ... это полезная фраза для обзора литературы, если я когда-либо слышал.
Мэтт Паркер
3

Отказ от ответственности: эта идея может быть глупой, и я не собираюсь притворяться, что понимаю теоретические последствия того, что я предлагаю.

« Предложение » : Почему бы вам просто не вменять 100 (я знаю, вы обычно делаете 5) наборов данных, запустить lme4 или nmle, получить доверительные интервалы (у вас их 100), а затем:

Используя небольшую ширину интервала (скажем, диапазон / 1000 или что-то в этом роде), проверьте диапазон возможных значений каждого параметра и включите в него только те небольшие интервалы, которые появляются по крайней мере в 95 из 100 КИ. Тогда у вас будет «среднее» Монте-Карло ваших доверительных интервалов.

Я уверен, что есть проблемы (или, возможно, теоретические проблемы) с этим подходом. Например, вы можете получить набор непересекающихся интервалов. Это может или не может быть плохой вещью в зависимости от вашей области. Обратите внимание, что это возможно только в том случае, если у вас есть как минимум два полностью непересекающихся доверительных интервала, которые разделены областью с охватом менее 95%.

Вы могли бы также рассмотреть нечто более близкое к байесовскому подходу к отсутствующим данным, чтобы получить заднюю правдоподобную область, которая , безусловно, была бы лучше сформирована и более теоретически обоснована, чем мое специальное предложение.

М. Тиббитс
источник