Выборка с заменой имеет два преимущества перед выборкой без замены:
1) Вам не нужно беспокоиться о конечной коррекции населения.
2) Существует вероятность, что элементы из совокупности отрисовываются несколько раз - тогда вы можете перезапустить измерения и сэкономить время.
Конечно, из академического POV нужно исследовать оба метода. Но из практического POV я не понимаю, почему можно рассматривать выборку без замены, учитывая преимущества замены.
Но я новичок в статистике, поэтому может быть много веских причин, почему без замены может быть лучшим выбором - по крайней мере для конкретных случаев использования. Пожалуйста, не вводите меня в заблуждение!
sampling
finite-population
Раффаэль
источник
источник
Ответы:
Расширяя ответ @Scortchi. , ,
Предположим, у населения было 5 человек, и у вас есть бюджет для выборки из 5 человек. Вас интересует среднее значение переменной X, характерное для отдельных лиц в этой группе. Вы можете сделать это по-своему, и случайным образом выбрать образец с заменой. Дисперсия среднего значения по выборке будет V (X) / 5.
С другой стороны, предположим, что вы выбрали пять человек без замены. Тогда дисперсия среднего значения выборки равна 0. Вы отобрали целую популяцию, каждую особь ровно один раз, поэтому нет различий между «средним по выборке» и «средним по популяции». Это одно и то же.
В реальном мире вы должны прыгать от радости каждый раз, когда вам нужно внести поправку в конечную популяцию, потому что (барабанная дробь ...) делает отклонение вашей оценки снижаться без необходимости собирать больше данных. Почти ничего не делает это. Это как магия: хорошая магия.
То же самое в математике (обратите внимание на <и предположите, что размер выборки больше 1):
Коррекция <1 означает, что применение коррекции приводит к отклонению вниз, потому что вы применяете коррекцию, умножая ее на дисперсию. Дисперсия ВНИЗ == хорошо.
Двигаясь в противоположном направлении, полностью от математики, подумайте о том, что вы спрашиваете. Если вы хотите узнать о населении и можете выбрать из него 5 человек, представляется ли вероятным, что вы узнаете больше, попробовав 5 раз выбрать одного и того же парня, или более вероятно, что вы узнаете больше, обеспечив что вы пробуете 5 разных парней?
Дело в реальном мире почти противоположно тому, что вы говорите. Почти никогда не пробуете с заменой - это только когда вы делаете специальные вещи, такие как начальная загрузка. В этом случае вы фактически пытаетесь испортить оценку и дать ей «слишком большую» дисперсию.
источник
Точность оценок обычно выше для выборки без замены по сравнению с выборкой с заменой.
Например, можно выбрать только один элемент раз, когда выборка выполняется с заменой в крайнем случае. Это может привести к очень неточной оценке интересующего параметра населения. Такая ситуация невозможна при отборе проб без замены. Таким образом, дисперсия обычно ниже для оценок, сделанных из выборки без замены.n
источник
Я не думаю, что ответы здесь полностью адекватны, и они, кажется, приводят доводы в пользу предельного случая, когда ваш объем данных очень мал.
При достаточно большой выборке это совсем не беспокоит, особенно при повторной загрузке (~ 1000). Если я выбрал из истинного распределения набор данных размером 10 000, и я произвел повторную выборку с заменой 1000 раз, тогда полученная мною дисперсия (в отличие от дисперсии, которую я получил бы без замены), совершенно незначительна.
Я бы сказал, что более точный ответ таков: при оценке достоверности статистики второго порядка крайне важна повторная выборка без замены . Например, если я использую бутстрап для оценки неопределенности измерения дисперсии. Нанесение с заменой на такое количество может искусственно искажать восстановленные дисперсии.
Если вам нужен конкретный пример с реальными данными, см. Этот документ https://arxiv.org/abs/1612.02827.
он кратко обсуждает ваш вопрос на странице 10
источник
У меня есть результат, который лечит без замены практически как с заменой и снимает все трудности. Обратите внимание, что с заменой расчетов гораздо проще. Таким образом, если вероятность включает в себя p и q, вероятности успеха и неудачи, в случае замены, соответствующая вероятность в случае без замены получается просто с заменой p ^ aq ^ b на (Nab) C (Ra) для любые a и b, где N, R - общее количество шаров и количество белых шаров. Помните, что р рассматривается как R / N.
K.Balasubramanian
источник