Как я могу объединить загруженные p-значения через множественные вмененные наборы данных?

12

Я обеспокоен проблемой, состоящей в том, что я хотел бы запустить p-значение для оценки из данных с множественным вменением (MI), но мне неясно, как объединить p-значения в наборах MI.θ

Для наборов данных MI стандартный подход для получения полной дисперсии оценок использует правила Рубина. Смотрите здесь для обзора объединения наборов данных MI. Квадратный корень общей дисперсии служит стандартной оценкой ошибки . Однако для некоторых оценщиков полная дисперсия не имеет известной замкнутой формы или распределение выборки не является нормальным. Статистика {\ theta} / {se (\ theta)} может тогда не быть t-распределенной, даже асимптотически.θθ/se(θ)

Поэтому в случае полных данных одним из альтернативных вариантов является начальная загрузка статистики, чтобы найти дисперсию, p-значение и доверительный интервал, даже если распределение выборки не является нормальным и его закрытая форма неизвестна. В случае MI есть два варианта:

  • Объединить загруженную дисперсию между наборами данных MI
  • Объедините p-значение или доверительные границы между наборами данных MI

Первый вариант затем снова использовал бы правила Рубина. Однако я считаю, что это проблематично, если имеет ненормальное распределение выборки. В этой ситуации (или, в более общем случае, во всех ситуациях) загрузочное p-значение может использоваться напрямую. Однако в случае MI это приведет к множественным значениям p или доверительным интервалам, которые необходимо объединить в наборы данных MI.θ

Итак, мой вопрос: как мне объединить несколько загруженных p-значений (или доверительных интервалов) в несколько вмененных наборов данных?

Буду рад любым предложениям о том, как поступить, спасибо.

Томка
источник
Возможно, полезно: пропущенные данные, вменение и бутстрап (Efron 1992) statistics.stanford.edu/sites/default/files/BIO%2520153.pdf
DL Dahly
@DLDahly Хм, я не знаком с этой статьей, но идея, кажется, состоит в том, чтобы сначала загрузить , а затем выполнить многократное вменение. Похоже, что OP является начальной оценкой из наборов данных MI.
Чакраварти
@fgnu Действительно, стандартной процедурой для получения полной дисперсии оценки с помощью начальной загрузки будет начальная загрузка дисперсии в каждом наборе данных MI, а затем применение правил Рубина для объединения начальной загрузки дисперсии между наборами данных MI.
Томка

Ответы:

6

Я думаю, что оба варианта дают правильный ответ. В целом, я бы предпочел метод 1, поскольку он сохраняет весь дистрибутив.

Для метода 1 загрузите параметр раз в каждом из MI решений. Затем просто смешайте загрузочных распределений, чтобы получить конечную плотность, теперь состоящую из выборок, которые включают вариацию между импутациями. Затем обработайте это как обычный пример начальной загрузки, чтобы получить доверительные интервалы. Используйте байесовский бутстрап для небольших образцов. Я не знаю никакой работы по моделированию, которая бы исследовала эту процедуру, и это на самом деле открытая проблема, которую нужно исследовать.m m k × mkmmk×m

Для метода 2 используйте процедуру Лихта-Рубина. См. Как получить объединенные p-значения в тестах, выполненных в нескольких вмененных наборах данных?

Стеф ван Буурен
источник
+1 - если цель состоит в том, чтобы понять изменчивость оценок в наборах данных MI, я бы загрузился в каждом наборе данных MI и посмотрел на общее и специфичное для MI распределение параметра.
DL Dahly
@ Stef-van-Buuren Кажется, то, что предлагает Д.Л. Дахли, эквивалентно объединению увеличенной дисперсии между наборами МИ. Вы все еще предпочли бы свой метод один (добавить все загруженные наборы данных) этому «косвенному» подходу?
Томка
@tomka. Я, конечно, поступил бы так же, как Д.Л. Дахли, и изучил бы распределение внутри и между вменениями. Чтобы объединить оба типа распределений, нам нужно как-то их объединить. Я предлагаю просто смешать их.
Стеф ван Бюрен
6

Это не литература, с которой я знаком, но одним из способов решения этой проблемы может быть игнорирование того факта, что это загрузочные p-значения, и просмотр литературы по комбинированию p-значений в множественных вмененных наборах данных.

В этом случае применимы Ли, Мэн, Рагхунатан и Рубин (1991) . Процедура основана на статистике каждого из вмененных наборов данных, взвешенных с использованием меры потери информации из-за вменения. Они сталкиваются с проблемами, связанными с совместным распределением статистики по вменениям, и делают некоторые упрощающие предположения.

Смежный интерес представляет Мэн (1994) .

Обновить

Процедура объединения p-значений по множественным вмененным наборам данных описана в диссертации Christine Licht, Ch. 4 . Идея, которую она приписывает Дону Рубину, заключается в том, чтобы преобразовать p-значения для нормального распределения, которые затем можно объединить по наборам данных MI, используя стандартные правила для объединения z-статистики.

tchakravarty
источник
Если я понимаю Ли и соавт. работать правильно, это относится к статистике, которую вы получаете от каждого набора MI. Например, если вы получаете Pearson Chi² в каждом наборе, то их правила могут быть применены, чтобы объединить его для вывода между наборами. Также может быть проведен, например, тест Вальда. Но в случае начальной загрузки вы не получите статистику, которую вы бы собрали (но только p-значение). Так что я не уверен, есть ли что-то в Li et al. это может быть применено к начальной загрузке р.
Томка
1
@ Tomka Я обновил свой ответ.
Чакраварти