Вопросы по параметрическому и непараметрическому бутстрапу

14

Я читаю главу о частой статистике из книги Кевина Мерфи « Машинное обучение - вероятностная перспектива ». Раздел по начальной загрузке гласит:

Бутстрап является простой техникой Монте-Карло для аппроксимации распределения выборки. Это особенно полезно в тех случаях, когда оценка является сложной функцией истинных параметров.

Идея проста. Если бы мы знали истинные параметры , мы могли бы сгенерировать множество (скажем, ) поддельных наборов данных, каждый размером , из истинного распределения для . Затем мы можем вычислить нашу оценку для каждой выборки, и использовать эмпирическое распределение полученных выборок в качестве нашей оценки распределения выборки. Поскольку неизвестно, идея параметрической начальной загрузки состоит в том, чтобы генерировать образцы, используя вместо этого \ hat {\ theta} (D) . SN x s ip(· | θ )s=1:S,i=1:N ^ θ s =f( x s 1 : N )θθSNxisp(·|θ)s=1:S,i=1:Nθs^=f(x1:Ns)θθ^(D)

Альтернативой, называемой непараметрической начальной загрузкой , является выборка (с заменой) из исходных данных , а затем вычисление индуцированного распределения, как и раньше. Некоторые методы ускорения начальной загрузки применительно к массивам данных обсуждаются в (Kleiner et al. 2011). дxisD

  • 1 . Текст говорит:

    Если бы мы знали истинные параметры ..., мы могли бы вычислить нашу оценку для каждого образца, ...^ θ sθθs^

        но зачем мне использовать оценку каждого образца, если я уже знаю истинные параметры ?θ

  • 2 . Кроме того, в чем здесь разница между эмпирическим распределением и распределением выборки?

  • 3 . Наконец, я не совсем понимаю разницу между параметрической и непараметрической загрузкой из этого текста. Они оба выводят из набора наблюдений , но в чем именно разница?DθD

Амелио Васкес-Рейна
источник

Ответы:

14

Ответ, данный miura, не совсем точен, поэтому я отвечаю на этот старый вопрос для потомков:

(2). Это очень разные вещи. Эмпирический cdf является оценкой CDF (распределение), которая генерировала данные. Именно дискретный CDF присваивает вероятности 1/n каждой наблюдаемой точке данных,F^(x)=1ni=1nI(Xix) для каждого . Эта оценка сходится к истинному cdf: почти наверняка для каждого (фактически равномерно).xF^(x)F(x)=P(Xix)x

Распределение выборки статистики - это распределение статистики, которое вы ожидаете увидеть при повторных экспериментах. То есть вы проводите эксперимент один раз и собираете данные . - это функция ваших данных: . Теперь предположим, что вы повторили эксперимент и собрали данные . Пересчет T в новой выборке дает . Если мы собрали 100 образцов мы имели бы 100 оценок . Эти наблюдения формируют выборочное распределениеTX1,,XnTT=T(X1,,Xn)X1,,XnT=T(X1,,Xn)TTT, Это настоящее распределение. По мере того, как количество экспериментов становится бесконечным, его среднее значение сходится к а его дисперсия к .E(T)Var(T)

В общем, конечно , не повторять эксперименты , как это, мы только когда - нибудь один экземпляр . Выяснить, что дисперсия из одного наблюдения очень трудно, если вы не знаете основную функцию вероятности a priori. Бутстрапирование способ оценить , что распределение выборки путем искусственного запуска «новые эксперименты» , на котором для расчета новых экземпляров . Каждый новый образец - это на самом деле просто повторный образец из исходных данных. То, что это дает вам больше информации, чем вы имеете в исходных данных, является загадочным и совершенно потрясающим.TTTTT

(1). Вы правы - вы бы этого не делали. Автор пытается мотивировать параметрическую начальную загрузку, описывая ее как «то, что вы сделали бы, если бы вы знали распределение», но подставляя очень хорошую оценку функции распределения - эмпирический cdf.

Например, предположим, что вы знаете, что ваша тестовая статистика обычно распределяется со средним нулем, дисперсией один. Как бы вы оценили распределение выборки ? Итак, поскольку вы знаете распределение, глупый и избыточный способ оценки распределения выборки состоит в том, чтобы использовать R для генерации 10 000 или около того стандартных нормальных случайных величин, затем взять их выборочное среднее значение и дисперсию и использовать их в качестве наших оценок среднего и дисперсия распределения выборки .TTT

Если мы априори не знаем параметры , но знаем, что он нормально распределен, мы можем вместо этого сгенерировать около 10000 выборок из эмпирического файла cdf, рассчитать для каждого из них, а затем взять среднее значение выборки. и дисперсия из них 10000 с, и использовать их как наши оценки ожидаемого значения и дисперсии . Поскольку эмпирический cdf является хорошей оценкой истинного cdf, параметры образца должны сходиться к истинным параметрам. Это параметрическая начальная загрузка: вы помещаете модель в статистику, которую хотите оценить. Модель индексируется параметром, например , который вы оцениваете из повторной выборки из файла ecdf.TTTT(μ,σ)

(3). Непараметрический загрузчик даже не требует от вас априори знать, что нормально распределен. Вместо этого вы просто рисуете повторные сэмплы из ecdf и вычисляете для каждого. После того, как вы отобрали около 10 000 выборок и рассчитали 10000 s, вы можете построить гистограмму ваших оценок. Это визуализация распределения выборкиTTTT, Непараметрическая начальная загрузка не скажет вам, что распределение выборки является нормальным, или гамма-и т. Д., Но оно позволяет вам оценить распределение выборки (обычно) настолько точно, насколько это необходимо. Он делает меньше предположений и предоставляет меньше информации, чем параметрический загрузчик. Это менее точно, когда параметрическое предположение верно, но более точно, когда оно ложно. Какой из них вы используете в каждой ситуации, с которой вы сталкиваетесь, полностью зависит от контекста. По общему признанию, все больше людей знакомы с непараметрической начальной загрузкой, но часто слабое параметрическое допущение делает полностью неразрешимую модель пригодной для оценки, что приятно.

guest47
источник
1
Я запутался в том, что вы описали параметрический загрузчик: «вместо этого мы можем сгенерировать около 10000 сэмплов из эмпирического cdf-файла». Мое понимание параметрического загрузчика состоит в том, что вы будете выбирать из модели, которую вы вписываете в данные. Это то, что описывает оригинальная цитата из книги Мерфи. Я мог бы неправильно прочитать, но выборка из эмпирического CDF данных будет непосредственно выборкой точек данных, что будет стандартным бутстрапом, нет?
user20160
@ user20160 вы неверно истолковываете ответ «Вместо»: он описывает непараметрическую загрузку, а не параметрическую.
daknowles
4

Я действительно ценю усилия, приложенные guest47, но я не совсем согласен с его ответом, в некоторых незначительных аспектах. Я бы не стал прямо излагать свои разногласия, а скорее отражал их в этом ответе.

  1. Во многих случаях это является избыточным для вычисления θ s , когда мы уже знаем истинный базовый параметр & thetas * . Тем не менее, это все еще полезно , когда мы хотим , чтобы посмотреть на точность и точность θ s при оценивании θ * . Кроме того, первый абзац в цитируемом вами отрывке облегчит вам понимание понятия «параметрической начальной загрузки», к которому я вскоре коснусь.θ^sθθ^sθ

  2. Гость47 дает хороший ответ. Не нужно уточнять больше.

  3. В параметрической самозагрузке, что у вас есть наблюдаемые данные D. Подходят с параметрической моделью , чтобы соответствовать данным, и используют оценщик & thetas (который является функцией данных D) для истинных параметров & thetas * . Затем вы генерировать тысячи наборов данных из параметрической модели с & thetas и оценки θ S для этих моделей. В непараметрической начальной загрузке вы напрямую используете D, выборку (тысячи раз) именно из D, а не из сгенерированных данных. θ^θθ^θ^s

QINGYUAN FENG
источник
2

Я не эксперт, но для чего это стоит

  1. Потому что вы заинтересованы в распределении выборки, как указано в первом предложении вашей цитаты.

  2. Эмпирическое распределение - это распределение, которое вы видите в вашем конечном числе выборок. Распределение выборок - это то, что вы бы увидели, если бы взяли бесконечное количество выборок.

Я не могу ответить 3. Я всегда понимал то, что здесь описывается как непараметрический бутстрап, как «бутстрап».

Если вы еще не полностью поняли концепцию распределения сэмплирования, здесь есть действительно хорошая тема, которая показывает очень иллюстративный R-код.

Миура
источник
5
Разница между параметрической и непараметрической начальной загрузкой заключается в том, что первая генерирует свои выборки из (предполагаемого) распределения данных, используя оценочные значения параметров, тогда как вторая генерирует свои выборки путем выборки с заменой из наблюдаемых данных - параметрическая модель не предполагается ,
Jbowman
@jbowman - у «непараметрической» начальной загрузки действительно есть базовая модель - просто она отличается от модели, используемой для мотивации оценки параметра.
вероятностная
@miura Пожалуйста, не разрушай свой ответ. Если вы хотите, чтобы спрашивающий выбрал другой ответ, оставьте комментарий под вопросом. Если вы хотите, чтобы ваш ответ был удален, отметьте его и попросите об этом.
Glen_b