Изучая курс выборки, я встречаю следующие два утверждения:
1) Ошибка выборки приводит к большей изменчивости, ошибки выборки приводят к смещению.
2) Из-за ошибки несэмплирования выборка часто является более точной, чем CENSUS.
Я не знаю, как понять эти два утверждения. Какова основная логика для получения этих двух утверждений?
estimation
sampling
survey
bias
user785099
источник
источник
Ответы:
Выборка может быть более точной, чем (попытка) переписи, если факт проведения переписи является отклонением от ошибки, не связанной с выборкой. Это может произойти, например, если в результате переписи будет проведена неблагоприятная политическая кампания, пропагандирующая отсутствие ответа (что-то реже случается с выборкой). Если это не произойдет, я не могу понять, почему в выборке будет меньше ошибок выборки, чем при переписи; и по определению он будет иметь больше ошибок выборки. Таким образом, помимо весьма необычных обстоятельств, я бы сказал, что перепись будет более точной, чем выборка.
Рассмотрим общий источник ошибок несоответствия - систематическое отсутствие ответа, например, определенной социально-демографической группой. Если люди из группы X могут отказаться от переписи, они также могут отказаться от выборки. Даже при использовании постстратификационной выборки для взвешивания ответов тех людей из группы X, которых вы действительно уговариваете ответить на ваши вопросы, у вас все еще есть проблема, потому что это может быть тот самый сегмент X, который является про-опросом. Нет реальной возможности обойти эту проблему, кроме как быть максимально осторожным с дизайном инструмента и способом доставки.
Попутно это привлекает внимание к одной возможной проблеме, которая может сделать попытку переписи менее точной, чем выборка. Образцы обычно имеют посттратификационный вес для населения, что уменьшает проблемы смещения из-за проблем, подобных тем, которые были в моем параграфе выше. Попытка переписи, которая не дает 100% возврата, является большой выборкой, и в принципе должна подвергаться той же обработке; но поскольку это рассматривается как «перепись» (а не как попытка переписи), этим можно пренебречь. Таким образом, эта перепись может быть менее точной, чем надлежащим образом взвешенная выборка. Но в этом случае проблема заключается в аналитической обработке (или упущении), а не в том, что она является попыткой проведения переписи.
Эффективность - это другое дело, как говорит Мишель, хорошо проведенная выборка будет более эффективной, чем перепись, и она вполне может иметь достаточную точность для практических целей.
источник
Я думаю, что есть практические ситуации, когда образец может быть более точным. Например, мы провели исследование в городе в развивающейся стране, где много людей живут в незарегистрированных местах, люди постоянно приходят и уходят и стесняются отвечать. Попытка действительно провести перепись потребовала бы Геркулесовых усилий, и, учитывая наши ресурсы, это должно было быть сделано в течение пары месяцев, когда люди приходили и уходили. Используя образец, мы могли бы потратить больше времени на то, чтобы получить максимально возможный отклик - потому что мы могли бы объяснить, что мы делаем, - и мы могли бы сделать это в гораздо более короткие сроки, что избавило бы от проблемы. людей, въезжающих и покидающих город.
Так что я думаю, что ответ зависит больше от логистики того, что вы делаете, и от различных источников ошибок, не связанных с выборкой.
На самом деле, другой источник состоял в том, что наш опрос был сложным, и нам пришлось обучать интервьюеров, а найти и финансировать достаточно обучаемых интервьюеров в этой стране было бы очень сложно.
источник
При выборке людей для опросов выборки часто страдают как от ошибки выборки (мы только получаем оценки), так и от ошибки выборки (например, люди отказываются отвечать на опрос, не отбирая выборку в рамках выборки, которые необходимы из-за практических соображений, таких как стоимость, или невозможность точно определить популяцию, чтобы сделать выборку). Сделано правильно, с высокой частотой ответов, выборка более эффективна, чем перепись. Но неверно полагать, что ни один из образцов не содержит ошибки несэмплирования.
источник
Я думаю, что они ключевой в ответе Питера Эллиса: «попытка». Когда вы делаете выборку должным образом, вы попадаете в детали отсутствия ответов, выясняете страты, выискиваете их и т. Д. Когда вы решаете провести перепись, эти вопросы легко игнорировать, поскольку вы получаете «всех». Проблема в том, что вы, вероятно, не получаете всех, но вы не думаете о том, кого вы на самом деле не получаете.
Существуют также статистические проблемы с чрезвычайно большими выборками (как доля от выборочной совокупности). Я недостаточно опытен, чтобы понимать их, но, как минимум, у вас есть проблемы с вычислениями отклонений. (Такие пакеты, как R,
survey
компенсируют такие вещи в больших группах населения опроса, и именно здесь я впервые узнал об этом.)В качестве вторичной проблемы, если ошибка, не связанная с выборкой, включает в себя проблемы, связанные с контролем качества на различных этапах процесса, то при наличии огромного количества данных (переписи) будет намного сложнее иметь уровень контроля качества, который был бы у вас (с тем же ресурсы) на меньшем наборе данных (образец).
Представьте, если бы у вас были ресурсы (финансовые и кадровые), которые Бюро переписи населения США использовало для переписи, но вы проводили опрос только 1000 случайных взрослых. Я думаю, что у вас будет намного лучший контроль качества и гораздо лучший анализ связанных вопросов и самих данных.
источник
Я подумал, что причина выборки может быть (а не) более точной, чем перепись на самом деле имеет один компонент, который относится к характеру переписи по сравнению с выборкой, и который может быть отнесен к причине переписи, которая может иметь большую предвзятость (очевидно, без выборки по определению): при переписи численность населения обычно неизвестна. Таким образом, свести к минимуму или контролировать смещение без ответа гораздо сложнее, чем с выборкой известного размера.
источник