Читая о том, как приблизить распределение выборки, я наткнулся на непараметрический метод начальной загрузки. По- видимому, можно аппроксимировать распределение распределения ˉ Х * п - ˉ Х п , где ˉ Х * п обозначает образец среднего значения выборки начальной загрузки.
Мой вопрос: мне нужно центрирование? Зачем?
Разве я не могу просто приблизить к P ( ˉ X ∗ n ≤ x ) ?
distributions
bootstrap
resampling
centering
Christin
источник
источник
Ответы:
Вариант с подходом центрирования идет следующим шагом и масштабирует вашу центрированную статистику начальной загрузки со стандартным отклонением повторной выборки и размером выборки, вычисляя так же, как и при статистике. Квантили из распределения этих t-статистики можно использовать для построения доверительного интервала или выполнения проверки гипотезы. Это метод начальной загрузки, и он дает превосходные результаты, когда делает выводы о среднем.
Рассмотрим приведенные ниже результаты моделирования, показывающие, что при сильно искаженном смешанном распределении доверительные интервалы этого метода содержат истинное значение чаще, чем либо метод начальной загрузки процентиля, либо традиционное обращение статистики при отсутствии начальной загрузки.
Это дает следующее (conf.t - метод начальной загрузки t; conf.p - метод начальной загрузки).
С одним примером из перекошенного дистрибутива:
Это дает следующее. Обратите внимание, что "conf.t" - версия начальной загрузки t - дает более широкий доверительный интервал, чем две другие. В основном, лучше реагировать на необычное распределение населения.
Наконец, вот тысяча симуляций, чтобы увидеть, какая версия дает доверительные интервалы, которые чаще всего являются правильными:
Это дает результаты ниже - числа из 1000 раз, когда доверительный интервал содержит истинное значение моделируемой совокупности. Обратите внимание, что истинный показатель успеха каждой версии значительно меньше 95%.
источник