Размер образцов начальной загрузки

9

Я изучаю начальную загрузку как средство оценки дисперсии выборочной статистики. У меня есть одно основное сомнение.

Цитата из http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :

• Сколько наблюдений мы должны пересчитать? Хорошее предложение - оригинальный размер выборки.

Как мы можем пересчитать столько наблюдений, сколько в исходной выборке?
Если у меня размер выборки 100, и я пытаюсь оценить дисперсию среднего. Как я могу получить несколько образцов начальной загрузки размером 100 из общего размера выборки 100? В этом случае будет возможен только 1 пример начальной загрузки, что будет эквивалентно исходной выборке, верно?

Я, очевидно, неправильно понимаю что-то очень простое. Я понимаю , что число из идеальных образцов бутстраповских всегда бесконечно, и определить количество выборок , необходимых для начальной загрузки моих данных я бы тест на сходимость сохраняя свою требуемую точность в виде.
Но я действительно не понимаю, какой должен быть размер каждого отдельного примера начальной загрузки.

user1265125
источник
7
Верхняя часть р. 3, и на иллюстрациях там четко и четко указано, что повторная выборка производится с заменой.
whuber
Но если размер моей начальной загрузки совпадает с общим количеством наблюдений, которые я имею, что мне заменить?
user1265125
Упрощенный пример - так что если у меня 4,1,3,7,5 в качестве моего набора образцов. Как я могу создать несколько образцов начальной загрузки размером 5? Единственный образец начальной загрузки размера 5 будет 4,1,3,7,5, то есть исходный набор образцов.
user1265125
1
Ой, подождите, я понял - «• Чтобы смоделировать распределение выборки, мы можем просто взять повторные случайные выборки из этой« совокупности », состоящей из множества копий выборки»
user1265125

Ответы:

16

Бутстрап проводится путем отбора проб с заменой . Похоже, термин «с заменой» для вас неясен. Как отметил Уубер , иллюстрация отбора проб с заменой приведена на с. 3 бумаги, на которую вы ссылаетесь (воспроизведено ниже).

Иллюстрация отбора проб с заменой

(источник: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )

Общая идея отбора образцов с заменой заключается в том, что в любом случае можно брать несколько раз (зеленый мрамор на первом изображении выше; синий и фиолетовый мраморы на последнем изображении). Если вы хотите представить себе этот процесс, подумайте о миске, наполненной разноцветными шариками. Скажите, что вы хотите нарисовать некоторое количество шариков из этой чаши. Если вы взяли пробы без замены, то вы просто вынули бы шарики из чаши и отложили их в сторону. Если вы взяли пробу с заменой, то вам нужно было бы попробовать мрамор один за другим, вынув из чаши один шарик, записав его цвет в блокноте, а затем вернув его обратно.в миску. Таким образом, при взятии проб с заменой один и тот же мрамор можно отбирать несколько раз.

Таким образом, при отборе проб без замены вы можете отобрать только шариков из чаши, содержащей шариков, а в случае проб с заменой вы можете отобрать любое количество шариков (даже больше, чем ) из конечной популяции. Если вы отобрали из шариков без замены, вы получите точно такой же образец, но в случайном порядке. Если вы отобрали из шариков с заменой, каждый раз вы можете пробовать другую комбинацию шариков.н н н н н н нnnnnnnn

Существует способов выборки без замены случаев из популяции с размером и способов выборки с заменой. Если вы хотите узнать больше о математике, вы можете проверить 2.1. Комбинаторика, глава книги « Введение в вероятности», автор Хоссейн Пишро-Ник. На странице WolframMathWorld также есть удобная шпаргалка .(nk)kn(n+k1k)

Тим
источник
0

Сколько наблюдений мы должны повторить? Хорошее предложение - оригинальный размер выборки.

Когда исходный размер выборки слишком велик, и вы не хотите / не можете обучить модель на полном наборе данных, «хорошее предложение» не так хорошо.

PS: я хотел добавить это как комментарий к вопросу, но мне не разрешено добавлять какие-либо комментарии ...

Дарума
источник
1
Почему вы хотите добавить это предложение? Если это происходит из-за того, что наборы данных слишком велики для регулярных вычислительных усилий, это актуальный практический вопрос, но он не относится к теории начальной загрузки, которая здесь ставилась под сомнение. Более того, речь шла об «оценке дисперсии выборочной статистики». Это действительно связано с обучением модели? (NB. Не хамить, я понимаю, что вы пока не можете оставлять комментарии, но это не освобождает вас от предоставления соответствующего ответа при публикации как таковой. Вы должны быть намного яснее, ИЛИ оставлять свой вопрос)
IWS