Ответ, данный miura, не совсем точен, поэтому я отвечаю на этот старый вопрос для потомков:
(2). Это очень разные вещи. Эмпирический cdf является оценкой CDF (распределение), которая генерировала данные. Именно дискретный CDF присваивает вероятности 1/n каждой наблюдаемой точке данных,F^(x)=1n∑ni=1I(Xi≤x) для каждого . Эта оценка сходится к истинному cdf: почти наверняка для каждого (фактически равномерно).xF^(x)→F(x)=P(Xi≤x)x
Распределение выборки статистики - это распределение статистики, которое вы ожидаете увидеть при повторных экспериментах. То есть вы проводите эксперимент один раз и собираете данные . - это функция ваших данных: . Теперь предположим, что вы повторили эксперимент и собрали данные . Пересчет T в новой выборке дает . Если мы собрали 100 образцов мы имели бы 100 оценок . Эти наблюдения формируют выборочное распределениеTX1,…,XnTT=T(X1,…,Xn)X′1,…,X′nT′=T(X′1,…,X′n)TTT, Это настоящее распределение. По мере того, как количество экспериментов становится бесконечным, его среднее значение сходится к а его дисперсия к .E(T)Var(T)
В общем, конечно , не повторять эксперименты , как это, мы только когда - нибудь один экземпляр . Выяснить, что дисперсия из одного наблюдения очень трудно, если вы не знаете основную функцию вероятности a priori. Бутстрапирование способ оценить , что распределение выборки путем искусственного запуска «новые эксперименты» , на котором для расчета новых экземпляров . Каждый новый образец - это на самом деле просто повторный образец из исходных данных. То, что это дает вам больше информации, чем вы имеете в исходных данных, является загадочным и совершенно потрясающим.TTTTT
(1). Вы правы - вы бы этого не делали. Автор пытается мотивировать параметрическую начальную загрузку, описывая ее как «то, что вы сделали бы, если бы вы знали распределение», но подставляя очень хорошую оценку функции распределения - эмпирический cdf.
Например, предположим, что вы знаете, что ваша тестовая статистика обычно распределяется со средним нулем, дисперсией один. Как бы вы оценили распределение выборки ? Итак, поскольку вы знаете распределение, глупый и избыточный способ оценки распределения выборки состоит в том, чтобы использовать R для генерации 10 000 или около того стандартных нормальных случайных величин, затем взять их выборочное среднее значение и дисперсию и использовать их в качестве наших оценок среднего и дисперсия распределения выборки .TTT
Если мы априори не знаем параметры , но знаем, что он нормально распределен, мы можем вместо этого сгенерировать около 10000 выборок из эмпирического файла cdf, рассчитать для каждого из них, а затем взять среднее значение выборки. и дисперсия из них 10000 с, и использовать их как наши оценки ожидаемого значения и дисперсии . Поскольку эмпирический cdf является хорошей оценкой истинного cdf, параметры образца должны сходиться к истинным параметрам. Это параметрическая начальная загрузка: вы помещаете модель в статистику, которую хотите оценить. Модель индексируется параметром, например , который вы оцениваете из повторной выборки из файла ecdf.TTTT(μ,σ)
(3). Непараметрический загрузчик даже не требует от вас априори знать, что нормально распределен. Вместо этого вы просто рисуете повторные сэмплы из ecdf и вычисляете для каждого. После того, как вы отобрали около 10 000 выборок и рассчитали 10000 s, вы можете построить гистограмму ваших оценок. Это визуализация распределения выборкиTTTT, Непараметрическая начальная загрузка не скажет вам, что распределение выборки является нормальным, или гамма-и т. Д., Но оно позволяет вам оценить распределение выборки (обычно) настолько точно, насколько это необходимо. Он делает меньше предположений и предоставляет меньше информации, чем параметрический загрузчик. Это менее точно, когда параметрическое предположение верно, но более точно, когда оно ложно. Какой из них вы используете в каждой ситуации, с которой вы сталкиваетесь, полностью зависит от контекста. По общему признанию, все больше людей знакомы с непараметрической начальной загрузкой, но часто слабое параметрическое допущение делает полностью неразрешимую модель пригодной для оценки, что приятно.
Я действительно ценю усилия, приложенные guest47, но я не совсем согласен с его ответом, в некоторых незначительных аспектах. Я бы не стал прямо излагать свои разногласия, а скорее отражал их в этом ответе.
Во многих случаях это является избыточным для вычисления θ s , когда мы уже знаем истинный базовый параметр & thetas * . Тем не менее, это все еще полезно , когда мы хотим , чтобы посмотреть на точность и точность θ s при оценивании θ * . Кроме того, первый абзац в цитируемом вами отрывке облегчит вам понимание понятия «параметрической начальной загрузки», к которому я вскоре коснусь.θ^s θ∗ θ^s θ∗
Гость47 дает хороший ответ. Не нужно уточнять больше.
В параметрической самозагрузке, что у вас есть наблюдаемые данные D. Подходят с параметрической моделью , чтобы соответствовать данным, и используют оценщик & thetas (который является функцией данных D) для истинных параметров & thetas * . Затем вы генерировать тысячи наборов данных из параметрической модели с & thetas и оценки θ S для этих моделей. В непараметрической начальной загрузке вы напрямую используете D, выборку (тысячи раз) именно из D, а не из сгенерированных данных.θ^ θ∗ θ^ θ^s
источник
Я не эксперт, но для чего это стоит
Потому что вы заинтересованы в распределении выборки, как указано в первом предложении вашей цитаты.
Эмпирическое распределение - это распределение, которое вы видите в вашем конечном числе выборок. Распределение выборок - это то, что вы бы увидели, если бы взяли бесконечное количество выборок.
Я не могу ответить 3. Я всегда понимал то, что здесь описывается как непараметрический бутстрап, как «бутстрап».
Если вы еще не полностью поняли концепцию распределения сэмплирования, здесь есть действительно хорошая тема, которая показывает очень иллюстративный R-код.
источник