Как я могу объединить апостериорные средства и достоверные интервалы после многократного вменения?

20

Я использовал множественное вменение для получения ряда завершенных наборов данных.

Я использовал байесовские методы на каждом из законченных наборов данных, чтобы получить апостериорные распределения для параметра (случайный эффект).

Как я могу объединить / объединить результаты для этого параметра?


Больше контекста:

Моя модель является иерархической в ​​смысле отдельных учеников (одно наблюдение на ученика), сгруппированных в школах. Я сделал несколько вменений (используя MICEв R) свои данные, которые я включил в schoolкачестве одного из предикторов для отсутствующих данных - чтобы попытаться включить иерархию данных в вменения.

Я установил простую модель случайного уклона для каждого из законченных наборов данных (используя MCMCglmmв R). Результат является двоичным.

Я обнаружил, что апостериорные плотности случайной дисперсии наклона "хорошо себя ведут" в том смысле, что они выглядят примерно так: введите описание изображения здесь

Как я могу объединить / объединить апостериорные средние и вероятные интервалы из каждого вмененного набора данных для этого случайного эффекта?


Обновление 1 :

Из того, что я понимаю до сих пор, я мог бы применить правила Рубина к последнему среднему значению, чтобы дать многократное вмененное заднее среднее - есть ли проблемы с этим? Но я понятия не имею, как я могу объединить 95% вероятных интервалов. Кроме того, поскольку у меня есть фактическая задняя выборка плотности для каждого вменения - могу ли я как-то объединить это?


Обновление 2 :

Согласно предложению @ cyan в комментариях, мне очень нравится идея простого объединения выборок из апостериорных распределений, полученных из каждого полного набора данных из многократного вменения. Тем не менее, я хотел бы знать теоретическое обоснование для этого.

Джо Кинг
источник
Если отсутствие какого-либо данного элемента данных не зависит от значения соответствующего результата, правильно отбросить все задние выборки из различных наборов вмененных данных и взять средние и 95% вероятные интервалы комбинированных задних выборок.
Голубой
@Cyan - это то же самое, что сказать, что механизм отсутствия отсутствует либо «случайно отсутствует», либо «полностью отсутствует случайно», но не «отсутствует случайно» (обычные предположения, о которых я узнал для выполнения ИМ)? Знаете ли вы какие-либо ссылки, где это "объединение" формально оправдано?
Джо Кинг,
Множественное вменение - это байесовская процедура в ее сердце. Если вы используете байесовские методы оценки (MCMC и т. П.), Вы просто должны использовать симуляцию отсутствующих данных в качестве дополнительного шага выборки MCMC для полностью байесовской модели и не будете пытаться найти интерфейс между этими подходами.
StasK
@StasK спасибо за ваш комментарий. Я попытаюсь использовать этот подход в моем следующем проекте, но, к сожалению, у меня нет времени, чтобы изменить модель сейчас. Я уже проверил вменения и байесовскую модель для каждого вмененного набора данных - это заняло почти 3 недели. Как вы думаете, неуместно ли мне комбинировать задние образцы?
Джо Кинг,
Правила Рубина применяются только к моментам. Я не знаю, можете ли вы применить их к распространению осмысленным образом. Может быть, может быть нет. Вполне возможно, что лучшее, что вы можете сделать, - это сказать, что прогон MCMC дал точечные оценки (апостериорные средние значения) и стандартные ошибки (апостериорные отклонения), а затем использовать правила Рубина для получения общих оценок точек и отклонений. Вы знаете, насколько трагичны потери dfs в иерархической модели и насколько опасно объединять данные: если у вас есть 5 вмененных полных наборов данных и 1M выборок MCMC на каждый, это означает, что у вас есть 5 кластеров, а не 5M iid MCMC точки.
StasK

Ответы:

4

С особенно хорошо ведущими постерами, которые могут быть адекватно описаны параметрическим описанием распределения, вы можете просто взять среднее значение и дисперсию, которая лучше всего описывает ваш апостериор, и пойти дальше. Я подозреваю, что этого может быть достаточно во многих обстоятельствах, когда вы не получаете действительно странные апостериорные распределения.

фомиты
источник
0

Если вы используете stata, существует процедура под названием «mim», которая объединяет данные после вменения с использованием моделей со смешанным эффектом. Я не знаю, доступен ли он в R.

Омар
источник
Спасибо. Возможно, я не очень хорошо объяснил - у меня уже есть задние выборки из нескольких вмененных наборов данных, и я хочу знать, могу ли я просто объединить их и затем сформировать многократно вмененный достоверный интервал?
Джо Кинг,