Логика множественного вменения (МИ) состоит в том, чтобы вменять пропущенные значения не один раз, а несколько (обычно М = 5) раз, что приводит к М завершенным наборам данных. Затем M завершенных наборов данных анализируются с использованием методов полных данных, на которых M оценок и их стандартные ошибки объединяются с использованием формул Рубина для получения «общей» оценки и ее стандартной ошибки.
Пока здорово, но я не уверен, как применять этот рецепт, когда речь идет о компонентах дисперсии модели смешанных эффектов. Распределение выборки дисперсионного компонента является асимметричным - поэтому соответствующий доверительный интервал нельзя дать в типичной форме «оценка ± 1,96 * se (оценка)». По этой причине пакеты R lme4 и nlme даже не предоставляют стандартных ошибок компонентов отклонения, а только обеспечивают доверительные интервалы.
Поэтому мы можем выполнить MI для набора данных, а затем получить M доверительных интервалов для каждого компонента дисперсии после подгонки той же модели смешанного эффекта к M завершенным наборам данных. Вопрос в том, как объединить эти М интервалы в один «общий» доверительный интервал.
Я думаю, это должно быть возможно - авторы статьи (yucel & demirtas (2010) Влияние ненормальных случайных эффектов на умозаключение по MI), похоже, сделали это, но они не объясняют, как именно.
Любые советы будут очень благодарны!
Ура, Рок
Ответы:
Это большой вопрос! Не уверен, что это полный ответ, однако я опускаю эти несколько строк на случай, если это поможет.
Похоже, что Yucel и Demirtas (2010) ссылаются на более раннюю статью, опубликованную в JCGS, « Вычислительные стратегии для многомерных линейных моделей со смешанными эффектами с отсутствующими значениями» , в которой используется гибридный подход к оценке EM / Fisher для получения основанных на вероятности оценок VC. , Он был реализован в пакете R mlmmm . Я не знаю, однако, если он производит КИ.
В противном случае я бы определенно проверил программу WinBUGS , которая в основном используется для многоуровневых моделей, в том числе с отсутствующими данными. Кажется, я помню, что это будет работать только в том случае, если ваш MV находится в переменной ответа, а не в ковариатах, потому что мы обычно должны указывать полные условные распределения (если MV присутствует в независимых переменных, это означает, что мы должны дать до недостающие X, и это будет рассматриваться как параметр, который будет оцениваться WinBUGS ...). Похоже, это относится и к R, если я обращаюсь к следующему потоку по r-sig-mixed, отсутствующим данным в lme, lmer, PROC MIXED . Также, возможно, стоит взглянуть на программное обеспечение MLwiN .
источник
Повторный комментарий сверху:
Я не уверен, что правильное аналитическое решение этой проблемы даже существует. Я посмотрел на некоторую дополнительную литературу, но эта проблема элегантно игнорируется везде. Я также заметил, что Yucel & Demirtas (в упомянутой статье на стр. 798) пишут:
Кажется, они использовали какой-то ярлык для оценки SE дисперсионного компонента (что, конечно, неуместно, поскольку CI является асимметричным), а затем применили классическую формулу.
источник
Отказ от ответственности: эта идея может быть глупой, и я не собираюсь притворяться, что понимаю теоретические последствия того, что я предлагаю.
« Предложение » : Почему бы вам просто не вменять 100 (я знаю, вы обычно делаете 5) наборов данных, запустить lme4 или nmle, получить доверительные интервалы (у вас их 100), а затем:
Используя небольшую ширину интервала (скажем, диапазон / 1000 или что-то в этом роде), проверьте диапазон возможных значений каждого параметра и включите в него только те небольшие интервалы, которые появляются по крайней мере в 95 из 100 КИ. Тогда у вас будет «среднее» Монте-Карло ваших доверительных интервалов.
Я уверен, что есть проблемы (или, возможно, теоретические проблемы) с этим подходом. Например, вы можете получить набор непересекающихся интервалов. Это может или не может быть плохой вещью в зависимости от вашей области. Обратите внимание, что это возможно только в том случае, если у вас есть как минимум два полностью непересекающихся доверительных интервала, которые разделены областью с охватом менее 95%.
Вы могли бы также рассмотреть нечто более близкое к байесовскому подходу к отсутствующим данным, чтобы получить заднюю правдоподобную область, которая , безусловно, была бы лучше сформирована и более теоретически обоснована, чем мое специальное предложение.
источник