Я преподаю вводный класс статистики и изучал типы выборки, в том числе систематическую выборку, где вы выбираете каждую k-ю особь или объект.
Студент спросил, будет ли выборка каждого человека с определенной характеристикой выполнять то же самое.
Например, будет ли выборка каждого человека с синей футболкой достаточно случайной и достаточно ли будет репрезентативной для всего населения? По крайней мере, если вы задаете вопрос, отличный от "Какого цвета футболка вы предпочитаете носить?" У меня нет смысла, но я подумал, есть ли у кого-нибудь мысли по этому поводу.
Ответы:
Ответ, в общем, на ваш вопрос "нет". Получение случайной выборки из популяции (особенно людей) является общеизвестно трудным делом. Обусловливая определенную характеристику, вы по определению не получаете случайную выборку. Сколько предвзятости это вносит - это совсем другое дело.
В качестве слегка абсурдного примера, вы не захотите попробовать этот пример, скажем, на футбольном матче между «медведями» и «упаковщиками», даже если ваше население было «футбольными фанатами». (У фанатов медведей могут быть другие характеристики, чем у других футбольных фанатов, даже если интересующее вас количество может не иметь прямого отношения к футболу.)
Есть много известных примеров скрытого смещения, возникающего при получении образцов таким способом. Например, на недавних выборах в США, на которых проводились телефонные опросы, считается, что в выборке недопредставлены (возможно, значительно) люди, владеющие только мобильным телефоном и не имеющим стационарного телефона. Поскольку эти люди, как правило, в основном моложе, чем те, у кого есть стационарные телефоны, получается необъективная выборка. Кроме того, молодые люди имеют совершенно разные политические убеждения, чем пожилые люди. Итак, это простой пример случая, когда, даже когда образец не был преднамеренно обусловлен какой-либо конкретной характеристикой, он все же происходил таким образом. И, хотя опрос не имел ничего общего либо условной характеристики (либо независимо от того, использует ли человек наземную линию связи), влияние характеристики кондиционирования на выводы опроса было значительным, статистически и практически.
источник
Пока распределение признака, который вы используете для выбора единиц в выборке, ортогонально распределению признака совокупности, которую вы хотите оценить, вы можете получить объективную оценку количества совокупности, обусловив выбор на ней. Выборка не является строго случайной выборкой. Но люди склонны упускать из виду, что случайные выборки хороши, потому что случайная величина, используемая для отбора единиц в выборку, ортогональна распределению характеристики популяции, а не потому, что она случайная.
Просто подумайте о случайном рисовании Бернулли с P (invlogit (x_i)), где x_i в [-inf, inf] - это особенность единицы i, такая что Cov (x, y)! = 0, а y - характеристика популяции, у которой значит ты хочешь оценить. Выборка является «случайной» в том смысле, что вы рандомизируете перед выбором в выборку. Но выборка не дает объективной оценки среднего значения y для населения.
То, что вам нужно, это обусловить выбор в выборку по переменной, которая так же хороша, как и случайное присвоение . Т.е. это ортогонально переменной, от которой зависит количество процентов. Рандомизация хороша, потому что она обеспечивает ортогональность, а не сама рандомизация.
источник