Просто хочу проверить некоторые рассуждения.
Если мой исходный образец имеет размер и я загружаю его, то мой мыслительный процесс выглядит следующим образом:
n-1 - это шанс любого наблюдения, взятого из исходного образца. Чтобы гарантировать, что следующая ничья не является ранее наблюдавшимся наблюдением, мы ограничиваем размер выборки до . Таким образом, мы получаем этот шаблон:
Это правильно? Я натыкаюсь на то, почему это не может быть .
sampling
bootstrap
sample-size
subsampling
Jayant.M
источник
источник
Ответы:
Обратите внимание, что в каждой позиции наблюдения ( ) мы можем выбрать любое из наблюдений, поэтому существует возможных повторных выборок (сохраняя порядок, в котором они взяты), из которыхявляются «одной и той же выборкой» (т.е. содержат все исходных наблюдений без повторов; это объясняет все способы упорядочения выборки, с которой мы начали).i=1,2,...,n n nn n! n
Например, с тремя наблюдениями, a, b и c, у вас есть 27 возможных выборок:
Шесть из них содержат по одному из a, b и c.
Таким образом, - это вероятность получения исходного образца обратно.n!/nn
В сторону - быстрое приближение вероятности:
Считайте, что :
так
При этом нижняя оценка является обычной для приближения Стирлинга (которая имеет низкую относительную ошибку при больших ).n
[Госпер предложил использовать что привело бы к приближению для этой вероятности , который работает достаточно хорошо, вплоть до или даже до зависимости от того, насколько строгими являются ваши критерии.]√n!≈(2n+13)π−−−−−−−−−√nne−n n = 3 n = 1(2n+13)π−−−−−−−−√e−n n=3 n=1
(Ответ на комментарий :) Вероятность не получить конкретного наблюдения в данной повторной выборке составляет что для больших составляет приблизительно .ne-1(1−1n)n n e−1
Подробнее см.
Почему в среднем каждая стартовая выборка содержит примерно две трети наблюдений?
источник