Если я выбираю 232 человека из группы из 363 человек без замены, какова вероятность того, что 2 из списка из 12 конкретных людей будут включены в этот выбор?
Это случайная ничья для ультра гонки, в которой было 363 участника на 232 места. Есть аргумент о том, был ли выбор предвзятым по отношению к определенной группе из 12 человек.
Моя первоначальная попытка рассчитать это состояла в том, что было 232 выбора, 363 возможных выбора. Количество комбинаций любого человека из списка двенадцати: 1 выберите 12 + 2 выберите 12 + ... + 11 выберите 12 + 12 выберите 12. Таким образом 1 выберите 12 + 2 выберите 12 .... / 232 выберите 363 Который в итоге оказывается очень низким числом, которое явно слишком мало.
Как мне рассчитать это?
Ответы:
Я интерпретирую вопрос следующим образом: предположим, что отбор проб был якобы проведен так, как будто в банку было помещено листа белой бумаги, на каждом из которых было указано имя одного человека, и были выбраны случайным образом после тщательного перемешивания содержимого банки. Заранее билетов были окрашены в красный цвет. Какова вероятность того, что ровно два из выбранных билетов красного цвета? Какова вероятность, что не более двух билетов красного цвета?232 12363 232 12
Точная формула может быть получена, но нам не нужно делать столько теоретической работы. Вместо этого мы просто отслеживаем шансы, когда билеты достают из банки. На время из них был снят, пусть вероятность того, что именно красные билеты были замечены быть написан . Для начала обратите внимание, что если (у вас не может быть красных билетов до начала работы) и (наверняка у вас нет красных билетов с самого начала). Теперь на последнем розыгрыше либо билет был красным, либо его нет. В первом случае у нас ранее был шанс увидеть точноi p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - м + 1 )м я р ( я , м ) p ( i , 0 ) = 0 я > 0 р ( 0 , 0 ) = 1 р ( я - 1 , m - 1 ) я - 1 красные билеты. Затем произошло то , чтобы вытащить красную один из оставшихся билетов, что делает его именно красные билеты до сих пор. Поскольку мы предполагаем, что все билеты имеют одинаковые шансы на каждом этапе, наш шанс нарисовать красный таким образом был . В другом случае у нас был шанс получить ровно красных билетов в предыдущих тиражах , и шанс не добавить еще один красный билет в образец на следующем тираже был363 - м + 1 я ( 12 - i + 1 ) / ( 363 - m + 1 ) p ( i , m - 1 ) я м - 1 ( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 ) , Откуда, используя основные аксиомы вероятности (то есть, шансы двух взаимоисключающих случаев добавляют и условные шансы умножаются),
Мы повторяем это вычисление рекурсивно, выкладывая треугольный массив значений для и . После небольшого подсчета мы получаем и , отвечая на обе версии вопроса. Это небольшие цифры: как ни крути, это довольно редкие события (реже, чем один на тысячу).0 ≤ i ≤ 12 0 ≤ m ≤ 232 p ( 2 , 232 ) ≈ 0.000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0.000934314р ( я ,м ) 0 ≤ я ≤ 12 0 ≤ м ≤ 232 p ( 2 , 232 ) ≈ 0,000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0,000934314
В качестве двойной проверки я выполнил это упражнение на компьютере 1 000 000 раз. В 932 = 0,000932 из этих экспериментов наблюдалось 2 или меньше красных билетов. Это очень близко к расчетному результату, потому что колебание выборки в ожидаемом значении 934,3 составляет около 30 (вверх или вниз). Вот как симуляция выполняется в R:
На этот раз, поскольку эксперименты являются случайными, результаты немного изменились: два или меньше красных билетов были обнаружены в 948 из миллиона испытаний. Это все еще согласуется с теоретическим результатом.)
Вывод: маловероятно, что два или меньше из 232 билетов будут красного цвета. Если у вас действительно есть выборка из 232 из 363 человек, этот результат является убедительным свидетельством того, что модель билетов в банке не является правильным описанием того, как была получена выборка. Альтернативные объяснения включают в себя (а) красные билеты было труднее извлечь из банки («предвзятость» против них), а также (б) билеты были окрашены после того, как образец наблюдался ( post-hoc отслеживание данных, что делает не указывать какой-либо предвзятости).
Примером объяснения (b) в действии мог бы быть состав жюри для печально известного судебного разбирательства по делу об убийстве. Предположим, это включало 363 человека. Из этого пула суд опросил 232 из них. Амбициозный газетный репортер тщательно проверяет биографию всех в бассейне и замечает, что 12 из 363 были любителями золотых рыбок, но только два из них были опрошены. Пристрастен ли суд к любителям золотых рыбок? Возможно нет.
источник
sample
). Фактически, на каждой итерацииsample
тщательно перемешивает билеты при каждом вызове, прежде чем отозвать 232 из них.@whuber дал исчерпывающее объяснение, я просто хочу отметить, что существует стандартное статистическое распределение, соответствующее этому сценарию: гипергеометрическое распределение. Таким образом, вы можете получить любые такие вероятности непосредственно, скажем, в R:
Вероятность точно 2 из 12 выбранных:
Вероятность 2 или менее из 12 выбранных:
источник
Шансы намного выше, чем рассчитано при простом гипергеометрическом распределении, так как группа выбрана не случайно ( «12 рыб окрашены в красный цвет перед розыгрышем» ).
Из описания вопроса, мы проверяем на мошенничество в розыгрыше. Конкретная группа из 12 человек жаловалась, что были отобраны только 2 из них, тогда как ожидаемое число составило 232/363 ~ 2/3 = 8.
Что нам действительно нужно рассчитать, так это шансы, что « Ни в одной группе размера 12 не будет выбрано только 2 члена». Вероятность того, что по крайней мере одна группа будет иметь 2 или меньше (следовательно, будет жаловаться на справедливость розыгрыша), намного выше.
Когда я запускаю эту симуляцию и проверяю, сколько из испытаний ни у одной из 30 (= 360/12) групп не было 2 или менее выборов, я получаю примерно 2,3% случаев. 1:42 низко, но не невозможно.
Вы все равно должны проверить процедуру розыгрыша, так как он может быть предвзятым в отношении определенной группы людей. Они могли бы собраться вместе и получить диапазон розыгрыша с меньшей вероятностью (например, первое или последнее число) или любую зависимую переменную от процедуры розыгрыша. Но если вы не обнаружите недостатков в процедуре, вы можете вернуться к коэффициенту 1:42, что это просто неудача для группы.
источник