Я обеспокоен проблемой, состоящей в том, что я хотел бы запустить p-значение для оценки из данных с множественным вменением (MI), но мне неясно, как объединить p-значения в наборах MI.
Для наборов данных MI стандартный подход для получения полной дисперсии оценок использует правила Рубина. Смотрите здесь для обзора объединения наборов данных MI. Квадратный корень общей дисперсии служит стандартной оценкой ошибки . Однако для некоторых оценщиков полная дисперсия не имеет известной замкнутой формы или распределение выборки не является нормальным. Статистика {\ theta} / {se (\ theta)} может тогда не быть t-распределенной, даже асимптотически.
Поэтому в случае полных данных одним из альтернативных вариантов является начальная загрузка статистики, чтобы найти дисперсию, p-значение и доверительный интервал, даже если распределение выборки не является нормальным и его закрытая форма неизвестна. В случае MI есть два варианта:
- Объединить загруженную дисперсию между наборами данных MI
- Объедините p-значение или доверительные границы между наборами данных MI
Первый вариант затем снова использовал бы правила Рубина. Однако я считаю, что это проблематично, если имеет ненормальное распределение выборки. В этой ситуации (или, в более общем случае, во всех ситуациях) загрузочное p-значение может использоваться напрямую. Однако в случае MI это приведет к множественным значениям p или доверительным интервалам, которые необходимо объединить в наборы данных MI.
Итак, мой вопрос: как мне объединить несколько загруженных p-значений (или доверительных интервалов) в несколько вмененных наборов данных?
Буду рад любым предложениям о том, как поступить, спасибо.
Ответы:
Я думаю, что оба варианта дают правильный ответ. В целом, я бы предпочел метод 1, поскольку он сохраняет весь дистрибутив.
Для метода 1 загрузите параметр раз в каждом из MI решений. Затем просто смешайте загрузочных распределений, чтобы получить конечную плотность, теперь состоящую из выборок, которые включают вариацию между импутациями. Затем обработайте это как обычный пример начальной загрузки, чтобы получить доверительные интервалы. Используйте байесовский бутстрап для небольших образцов. Я не знаю никакой работы по моделированию, которая бы исследовала эту процедуру, и это на самом деле открытая проблема, которую нужно исследовать.m m k × mК м м k×m
Для метода 2 используйте процедуру Лихта-Рубина. См. Как получить объединенные p-значения в тестах, выполненных в нескольких вмененных наборах данных?
источник
Это не литература, с которой я знаком, но одним из способов решения этой проблемы может быть игнорирование того факта, что это загрузочные p-значения, и просмотр литературы по комбинированию p-значений в множественных вмененных наборах данных.
В этом случае применимы Ли, Мэн, Рагхунатан и Рубин (1991) . Процедура основана на статистике каждого из вмененных наборов данных, взвешенных с использованием меры потери информации из-за вменения. Они сталкиваются с проблемами, связанными с совместным распределением статистики по вменениям, и делают некоторые упрощающие предположения.
Смежный интерес представляет Мэн (1994) .
Обновить
Процедура объединения p-значений по множественным вмененным наборам данных описана в диссертации Christine Licht, Ch. 4 . Идея, которую она приписывает Дону Рубину, заключается в том, чтобы преобразовать p-значения для нормального распределения, которые затем можно объединить по наборам данных MI, используя стандартные правила для объединения z-статистики.
источник