Почему бы не всегда использовать загрузочные CI?

12

Мне было интересно, как загрузочные CI (и BCa в barticular) работают на нормально распределенных данных. Похоже, что было проделано много работы по изучению их производительности в различных типах дистрибутивов, но ничего не удалось найти в нормально распределенных данных. Поскольку кажется очевидным, что изучать в первую очередь, я полагаю, что бумаги слишком старые.

Я провел несколько симуляций Монте-Карло с использованием загрузочного пакета R и обнаружил, что CI начальной загрузки согласуются с точными CI, хотя для небольших выборок (N <20) они, как правило, немного либеральны (меньшие CI). Для достаточно больших образцов они практически одинаковы.

Это заставляет меня задуматься, есть ли веская причина не всегда использовать самозагрузку. Учитывая сложность оценки того, является ли распределение нормальным, и многочисленные подводные камни, стоящие за этим, представляется разумным не принимать решения и не сообщать о начальной загрузке CI независимо от распределения. Я понимаю мотивацию не использовать непараметрические тесты систематически, так как они имеют меньшую мощность, но мои моделирования показывают, что это не так для загрузочных КИ. Они еще меньше.

Подобный вопрос, который меня беспокоит, заключается в том, почему не всегда использовать медиану как меру центральной тенденции. Люди часто рекомендуют использовать его для характеристики не нормально распределенных данных, но, поскольку медиана совпадает со средним значением для нормально распределенных данных, зачем проводить различие? Было бы весьма полезно, если бы мы могли избавиться от процедур, позволяющих решить, является ли распределение нормальным или нет.

Мне очень любопытно, что вы думаете по этим вопросам и обсуждались ли они ранее. Ссылки будут высоко оценены.

Благодарность!

пьер

dragice
источник
Смотрите мой вопрос здесь относительно среднего и среднего: stats.stackexchange.com/questions/96371/…
Алексис,
Для многих проблем повторная выборка невозможна в вычислительном отношении. Например, если вы просто хотите рассчитать CI для большой трехмерной матрицы или для длинных временных рядов.
Иона

Ответы:

4

Полезно взглянуть на мотивацию для интервала BCa и его механизмы (то есть так называемые «поправочные коэффициенты»). Интервалы BCa являются одним из наиболее важных аспектов начальной загрузки, поскольку они представляют собой более общий случай Процентных интервалов начальной загрузки (т. Е. Доверительный интервал, основанный исключительно на самом распределении начальной загрузки).

В частности, посмотрите на связь между интервалами BCa и Процентными интервалами Bootstrap: когда поправка на ускорение (первый «поправочный коэффициент») и асимметрия (второй «поправочный коэффициент») равны нулю, тогда интервалы BCa возвращаются обратно к типичный процентный интервал начальной загрузки.

Я не думаю, что было бы хорошей идеей ВСЕГДА использовать начальную загрузку. Самозагрузка - это надежная методика, которая имеет множество механизмов (например, доверительные интервалы и существуют разные вариации самозагрузки для разных типов проблем, таких как дикая самозагрузка при гетероскедастичности) для приспособления к различным проблемам (например, ненормальность). ), но он опирается на одно важное предположение: данные точно представляют истинную популяцию.

Это предположение, хотя и простое по своей природе, может быть трудно проверить, особенно в контексте небольших размеров выборки (хотя может быть, что небольшая выборка является точным отражением истинной совокупности!). Если исходный образец, на котором распределение начальной загрузки (и, следовательно, все последующие результаты) не является достаточно точным, то ваши результаты (и, следовательно, ваше решение, основанное на этих результатах) будут ошибочными.

ЗАКЛЮЧЕНИЕ: есть много двусмысленности с начальной загрузкой, и вы должны проявлять осторожность перед ее применением.

мммммммммм
источник
2
«Если исходный образец, на котором распределение начальной загрузки (и, следовательно, все результаты, вытекающие из него), не является достаточно точным, то ваши результаты (и, следовательно, ваше решение, основанное на этих результатах) будут ошибочными». -> но работает ли бутстрап CI хуже, чем аналитическая альтернатива в этих случаях?
Иона
3
Предположение о том, что данные адекватно представляют совокупность, не является исключительным только для начальной загрузки: оно относится к статистике в целом, поэтому, если данные неадекватны, то любые сделанные выводы, исходные данные начальной загрузки или иное, которые были сделаны, вводят в заблуждение (ложное предположение подразумевает любое вывод!).
мммммммммм
4
Таким образом, это предостережение направлено не на начальную загрузку, а на вывод и не является аргументом против использования начальной загрузки по сравнению с другим методом, а об абсолютной вере в ошибочные методы. Я не понимаю, насколько это актуально в этом контексте.
Иона
Извините, немного опоздал в этой теме .... @ jona: разве это не было бы уместно, потому что начальная загрузка еще больше усилит выборку? Так что, если ваша выборка является неудачным искажением информации о населении, то использование начальной загрузки отправит вас еще дальше от населенного пункта? Разве это не потенциальный аргумент против систематического использования начальной загрузки?
Sisdog