Я обычно имею дело с данными, в которых несколько человек измеряются несколько раз в каждом из двух или более состояний. Недавно я играл с моделированием смешанных эффектов, чтобы оценить доказательства различий между условиями, моделируя individual
как случайный эффект. Чтобы визуализировать неопределенность в отношении прогнозов из такого моделирования, я использовал начальную загрузку, где на каждой итерации начальной загрузки как индивидуумы, так и наблюдения в пределах условий внутри индивидуумов отбираются с заменой, и новая модель смешанного эффекта вычисляется, из которой прогнозы получены. Это прекрасно работает для данных, которые предполагают гауссовскую ошибку, но когда данные являются биномиальными, начальная загрузка может занять очень много времени, потому что каждая итерация должна вычислять сравнительно интенсивную модель биномиальных смешанных эффектов.
У меня была мысль, что я мог бы использовать остатки из исходной модели, а затем использовать эти остатки вместо необработанных данных при начальной загрузке, что позволило бы мне вычислять модель смешанного эффекта Гаусса на каждой итерации начальной загрузки. Добавление исходных прогнозов из биномиальной модели необработанных данных к загрузочным прогнозам из остатков дает 95% -й доверительный интервал для исходных прогнозов.
Тем не менее, я недавно кодировал простую оценку этого подхода, моделируя разницу между двумя условиями и вычисляя долю случаев, когда 95% доверительный интервал не включал ноль, и я обнаружил, что описанная выше процедура начальной загрузки на основе остатков дает довольно сильные консервативные интервалы (они исключают ноль более 5% времени). Кроме того, я затем закодировал (по той же ссылке, что и предыдущий) аналогичную оценку этого подхода применительно к данным, которые изначально были гауссовскими, и он получил аналогичные (хотя и не экстремальные) антиконсервативные КИ. Есть идеи, почему это может быть?
источник
Ответы:
Помните, что все доверительные интервалы начальной загрузки являются асимптотически только при заявленном уровне достоверности. Существует также множество возможных методов выбора доверительных интервалов начальной загрузки. Метод процентиля Эфрона, метод процентили Холла, двойной начальной загрузки, начальной загрузки t, наклонной начальной загрузки, BC, BCa и, возможно, еще несколько. Вы не сказали нам, какой метод вы используете. Бумага Шенкера в JASA 1985 показала, что для определенных распределений хи-квадрат доверительный интервал начальной загрузки BC недооценивал рекламируемый процент. При небольших размерах выборки эта проблема может быть серьезной. LaBudde и я имеем две работы, показывающие, как в небольших выборках даже BCa может иметь очень слабое покрытие при оценке отклонения от логнормального распределения, и существует аналогичная проблема для проверки равенства двух дисперсий. Это просто для простой проблемы. Я ожидаю, что то же самое может случиться с остатками от смешанных моделей. В нашей новой книге «Введение в методы начальной загрузки с приложениями к R», опубликованной Wiley в 2011 году, мы освещаем эту тему в разделе 3.7 и даем ссылки. Сюрпризом является то, что метод процентилей иногда работает лучше, чем метод BCa более высокого порядка, когда размер выборки невелик.
источник