Я читал эту статью о деле Палантира, где Министерство труда обвиняет их в дискриминации азиатов. Кто-нибудь знает, откуда они взяли эти оценки вероятности?
Я не получаю 1/741 в пункте (а).
(a) На должность инженера по контролю качества из группы из более чем 730 квалифицированных кандидатов, примерно 77% из которых были азиатами, Палантир нанял шесть неазиатских и только одного азиатского кандидата. Неблагоприятное воздействие, рассчитанное OFCCP, превышает три стандартных отклонения. Вероятность того, что этот результат произошел по случайности, приблизительно равна 741.
(b) На должность инженера-программиста из группы из более чем 1 160 квалифицированных кандидатов (примерно 85% из которых были азиаты) Палантир нанял 14 неазиатских и только 11 азиатских заявителей. Неблагоприятное воздействие, рассчитанное OFCCP, превышает пять стандартных отклонений. Вероятность того, что этот результат произошел по случайности, составляет примерно 1 к 3,4 миллиона.
(c) Для стажировки инженера по контролю качества из группы из более чем 130 квалифицированных кандидатов, примерно 73% из которых были азиатами, Палантир нанял 17 неазиатских и только четыре азиатских кандидата. Неблагоприятное воздействие, рассчитанное OFCCP, превышает шесть стандартных отклонений. Вероятность того, что этот результат произошел по случайности, составляет примерно один на миллиард.
источник
Ответы:
Я собираюсь перепроектировать это из опыта с случаями дискриминации. Я точно могу определить, откуда взялись значения «один в 741» и т . Д. Однако при переводе было потеряно столько информации, что остальная часть моей реконструкции основана на том, как люди наблюдают за статистикой в зале суда. Я могу только догадываться о некоторых деталях.
Со времени принятия антидискриминационных законов в 1960-х годах (Раздел VI) суды в Соединенных Штатах научились смотреть на значения p и сравнивать их с пороговыми значениями и 0,01 . Они также научились смотреть на стандартизированные эффекты, обычно называемые «стандартными отклонениями», и сравнивать их с порогом «двух-трех стандартных отклонений». Для того, чтобы установить prima facie случай для иска о дискриминации, истцы обычно пытаются статистический расчет, показывающий «несопоставимое воздействие», которое превышает эти пороговые значения. Если такой расчет не может быть поддержан, дело обычно не может продвигаться вперед.0.05 0.01
Статистические эксперты для истцов часто пытаются сформулировать свои результаты в этих знакомых терминах. Некоторые из экспертов проводят статистический тест, в котором нулевая гипотеза выражает «отсутствие неблагоприятного воздействия», предполагая, что решения о трудоустройстве были чисто случайными и не зависели от каких-либо других характеристик работников. (Является ли это односторонним или двусторонним вариантом, может зависеть от специалиста и обстоятельств.) Затем они преобразуют значение p этого теста в ряд «стандартных отклонений», ссылаясь на стандартное нормальное распределение - - даже если стандартная норма не имеет отношения к исходному тесту. На этом окольном пути они надеются четко сообщить свои выводы судье.
Предпочтительным тестом для данных, которые можно суммировать в таблицах непредвиденных обстоятельств, является точный тест Фишера. Появление «точного» в его названии особенно приятно истцам, поскольку оно означает статистическое определение, которое было сделано без ошибок (что бы это ни было!).
Вот моя (умозрительная реконструкция) расчеты Министерства труда.
Они преобразовали его p-значение в нормальную Z-оценку («число стандартных отклонений»).
Они округлили Z балл до ближайшего целого числа: «превышает три стандартных отклонения», «превышает пять стандартных отклонений» и «превышает шесть стандартных отклонений». (Поскольку некоторые из этих Z-показателей округляли до более стандартных отклонений, я не могу оправдать «превышение»; все, что я могу сделать, это процитировать его.)
В жалобе эти интегральные Z-оценки были преобразованы обратно в p-значения! Снова использовалось стандартное нормальное распределение.
Эти p-значения описываются (возможно, вводящим в заблуждение) как «вероятность того, что этот результат произошел по случайности».
Вот некоторый
R
код, используемый для выполнения этих расчетов.источник
Как правильно рассчитать pvals с использованием гипергеометрического распределения:
Для одностороннего теста, в MATLAB, вы можете позвонить
pval = hygecdf(k, N, K, n);
или в этом случае,pval = hygecdf(1, 730, 562, 7)
который составляет около .0007839.Среднее и стандартное отклонение определяются как:
В поисках формул, которые OFCCP может использовать, этот сайт, который я видел, может быть полезен: http://www.hr-software.net/EmploymentStatistics/DisparateImpact.htm
Краткое изложение некоторых расчетов:
источник