Вероятно, что образец начальной загрузки точно такой же, как и исходный.

9

Просто хочу проверить некоторые рассуждения.

Если мой исходный образец имеет размер и я загружаю его, то мой мыслительный процесс выглядит следующим образом:n

n-11n - это шанс любого наблюдения, взятого из исходного образца. Чтобы гарантировать, что следующая ничья не является ранее наблюдавшимся наблюдением, мы ограничиваем размер выборки до . Таким образом, мы получаем этот шаблон:n1

1n1n11n21n(n1)=1n!.

Это правильно? Я натыкаюсь на то, почему это не может быть .(1n)n

Jayant.M
источник
1
Я не уверен, что следую за тобой. Почему вы хотите «убедиться, что следующий розыгрыш не является предыдущим образцом»? В начальной загрузке идея состоит в том, чтобы пробовать с заменой. То есть вы действительно хотите, чтобы следующий розыгрыш был таким же, как тот, который вы уже разыграли.
gung - Восстановить Монику
но не значит ли это, что загруженный образец не совпадает с исходным образцом?
Jayant.M
Я не слежу за тобой. Вы не обязательно хотите, чтобы загрузочная выборка была идентична вашей выборке, вы просто хотите рассматривать выборку как модель совокупности.
gung - Восстановить Монику
1
Поэтому мой вопрос заключается в том, какова вероятность того, что образец начальной загрузки совпадает с исходным образцом. Я заинтересован в том, чтобы бутстрап был идентичным образцу
Jayant.M
Извините, если мой вопрос не был ясен!
Jayant.M

Ответы:

17

Обратите внимание, что в каждой позиции наблюдения ( ) мы можем выбрать любое из наблюдений, поэтому существует возможных повторных выборок (сохраняя порядок, в котором они взяты), из которыхявляются «одной и той же выборкой» (т.е. содержат все исходных наблюдений без повторов; это объясняет все способы упорядочения выборки, с которой мы начали).i=1,2,...,nnnnn!n

Например, с тремя наблюдениями, a, b и c, у вас есть 27 возможных выборок:

aaa aab aac aba abb abc aca acb acc 
baa bab bac bba bbb bbc bca bcb bcc 
caa cab cac cba cbb cbc cca ccb ccc 

Шесть из них содержат по одному из a, b и c.

Таким образом, - это вероятность получения исходного образца обратно.n!/nn

В сторону - быстрое приближение вероятности:

Считайте, что :

2π nn+12enn!e nn+12en

так

2π n12enn!/nne n12en

При этом нижняя оценка является обычной для приближения Стирлинга (которая имеет низкую относительную ошибку при больших ).n

[Госпер предложил использовать что привело бы к приближению для этой вероятности , который работает достаточно хорошо, вплоть до или даже до зависимости от того, насколько строгими являются ваши критерии.]n!(2n+13)πnnen n = 3 n = 1(2n+13)πenn=3n=1


(Ответ на комментарий :) Вероятность не получить конкретного наблюдения в данной повторной выборке составляет что для больших составляет приблизительно .ne-1(11n)nne1

Подробнее см.
Почему в среднем каждая стартовая выборка содержит примерно две трети наблюдений?

Glen_b - Восстановить Монику
источник
Спасибо! в качестве интереса, какова вероятность того, что не будет получена конкретная запись в образце? например, с распределением вы дали, есть шанс 8/27 не получить образец сa,b,ca
Jayant.M
1
Это уже описано в других ответах на сайте, но я добавил это выше (кратко).
Glen_b
1
Таким образом, это вероятность получения образца, который является перестановкой исходного образца. Вместо этого вероятность получения точно такой же последовательности, как в исходном образце (таким образом, те же элементы в том же порядке) равна . Правильно? (1n)n
DeltaIV
1
@ deltaiv да, только один издоговоренности в оригинальном порядке. n!
Glen_b
1
Разве приближение Госпера не работает хорошо даже до , а не только до ? Я думаю, что 0,499 (для ) является довольно хорошим приближением к 0,5, а 0,996 (для ) также довольно близко к 1,0. n = 3 n = 2 n = 1n=1n=3n=2n=1
Карл Ове Хуфтхаммер