Мне было интересно, как загрузочные CI (и BCa в barticular) работают на нормально распределенных данных. Похоже, что было проделано много работы по изучению их производительности в различных типах дистрибутивов, но ничего не удалось найти в нормально распределенных данных. Поскольку кажется очевидным, что изучать в первую очередь, я полагаю, что бумаги слишком старые.
Я провел несколько симуляций Монте-Карло с использованием загрузочного пакета R и обнаружил, что CI начальной загрузки согласуются с точными CI, хотя для небольших выборок (N <20) они, как правило, немного либеральны (меньшие CI). Для достаточно больших образцов они практически одинаковы.
Это заставляет меня задуматься, есть ли веская причина не всегда использовать самозагрузку. Учитывая сложность оценки того, является ли распределение нормальным, и многочисленные подводные камни, стоящие за этим, представляется разумным не принимать решения и не сообщать о начальной загрузке CI независимо от распределения. Я понимаю мотивацию не использовать непараметрические тесты систематически, так как они имеют меньшую мощность, но мои моделирования показывают, что это не так для загрузочных КИ. Они еще меньше.
Подобный вопрос, который меня беспокоит, заключается в том, почему не всегда использовать медиану как меру центральной тенденции. Люди часто рекомендуют использовать его для характеристики не нормально распределенных данных, но, поскольку медиана совпадает со средним значением для нормально распределенных данных, зачем проводить различие? Было бы весьма полезно, если бы мы могли избавиться от процедур, позволяющих решить, является ли распределение нормальным или нет.
Мне очень любопытно, что вы думаете по этим вопросам и обсуждались ли они ранее. Ссылки будут высоко оценены.
Благодарность!
пьер
Ответы:
Полезно взглянуть на мотивацию для интервала BCa и его механизмы (то есть так называемые «поправочные коэффициенты»). Интервалы BCa являются одним из наиболее важных аспектов начальной загрузки, поскольку они представляют собой более общий случай Процентных интервалов начальной загрузки (т. Е. Доверительный интервал, основанный исключительно на самом распределении начальной загрузки).
В частности, посмотрите на связь между интервалами BCa и Процентными интервалами Bootstrap: когда поправка на ускорение (первый «поправочный коэффициент») и асимметрия (второй «поправочный коэффициент») равны нулю, тогда интервалы BCa возвращаются обратно к типичный процентный интервал начальной загрузки.
Я не думаю, что было бы хорошей идеей ВСЕГДА использовать начальную загрузку. Самозагрузка - это надежная методика, которая имеет множество механизмов (например, доверительные интервалы и существуют разные вариации самозагрузки для разных типов проблем, таких как дикая самозагрузка при гетероскедастичности) для приспособления к различным проблемам (например, ненормальность). ), но он опирается на одно важное предположение: данные точно представляют истинную популяцию.
Это предположение, хотя и простое по своей природе, может быть трудно проверить, особенно в контексте небольших размеров выборки (хотя может быть, что небольшая выборка является точным отражением истинной совокупности!). Если исходный образец, на котором распределение начальной загрузки (и, следовательно, все последующие результаты) не является достаточно точным, то ваши результаты (и, следовательно, ваше решение, основанное на этих результатах) будут ошибочными.
ЗАКЛЮЧЕНИЕ: есть много двусмысленности с начальной загрузкой, и вы должны проявлять осторожность перед ее применением.
источник