Азиатский случай дискриминации Палантира: как рассчитывались вероятности?

Я читал эту статью о деле Палантира, где Министерство труда обвиняет их в дискриминации азиатов. Кто-нибудь знает, откуда они взяли эти оценки вероятности?

Я не получаю 1/741 в пункте (а).

(a) На должность инженера по контролю качества из группы из более чем 730 квалифицированных кандидатов, примерно 77% из которых были азиатами, Палантир нанял шесть неазиатских и только одного азиатского кандидата. Неблагоприятное воздействие, рассчитанное OFCCP, превышает три стандартных отклонения. Вероятность того, что этот результат произошел по случайности, приблизительно равна 741.

(b) На должность инженера-программиста из группы из более чем 1 160 квалифицированных кандидатов (примерно 85% из которых были азиаты) Палантир нанял 14 неазиатских и только 11 азиатских заявителей. Неблагоприятное воздействие, рассчитанное OFCCP, превышает пять стандартных отклонений. Вероятность того, что этот результат произошел по случайности, составляет примерно 1 к 3,4 миллиона.

(c) Для стажировки инженера по контролю качества из группы из более чем 130 квалифицированных кандидатов, примерно 73% из которых были азиатами, Палантир нанял 17 неазиатских и только четыре азиатских кандидата. Неблагоприятное воздействие, рассчитанное OFCCP, превышает шесть стандартных отклонений. Вероятность того, что этот результат произошел по случайности, составляет примерно один на миллиард.

probability p-value contingency-tables legal Аксакал почти наверняка бинарный
источник

Можете ли вы показать расчет, который вы сделали, чтобы получить что-то кроме 1/741?

Бен Болкер,

Моя оценка была односторонней - если вы удвоите ее, чтобы сделать ее похожей на двусторонний тест гипотезы, вы получите довольно близко к этому числу 1/741.

Грегор, - восстановите Монику

Я согласен, что удвоение не имеет никакого смысла в этом случае, я просто пытался угадать, что могло быть сделано. Вопрос не в том, что является правильным ответом, а в том, как они пришли к этой оценке .

Грегор - восстановить Монику

Было бы замечательно, если бы кто-то преобразовал снимок экрана в формате PDF в текстовую цитату ...

говорит Амеба, восстановите Монику

Мне удалось распознать ваш скриншот с помощью finereaderonline.com .

говорит амеба, восстановите Монику

Ответы:

Я собираюсь перепроектировать это из опыта с случаями дискриминации. Я точно могу определить, откуда взялись значения «один в 741» и т . Д. Однако при переводе было потеряно столько информации, что остальная часть моей реконструкции основана на том, как люди наблюдают за статистикой в зале суда. Я могу только догадываться о некоторых деталях.

Со времени принятия антидискриминационных законов в 1960-х годах (Раздел VI) суды в Соединенных Штатах научились смотреть на значения p и сравнивать их с пороговыми значениями и . Они также научились смотреть на стандартизированные эффекты, обычно называемые «стандартными отклонениями», и сравнивать их с порогом «двух-трех стандартных отклонений». Для того, чтобы установить prima facie случай для иска о дискриминации, истцы обычно пытаются статистический расчет, показывающий «несопоставимое воздействие», которое превышает эти пороговые значения. Если такой расчет не может быть поддержан, дело обычно не может продвигаться вперед. $0.05$ $0.01$

Статистические эксперты для истцов часто пытаются сформулировать свои результаты в этих знакомых терминах. Некоторые из экспертов проводят статистический тест, в котором нулевая гипотеза выражает «отсутствие неблагоприятного воздействия», предполагая, что решения о трудоустройстве были чисто случайными и не зависели от каких-либо других характеристик работников. (Является ли это односторонним или двусторонним вариантом, может зависеть от специалиста и обстоятельств.) Затем они преобразуют значение p этого теста в ряд «стандартных отклонений», ссылаясь на стандартное нормальное распределение - - даже если стандартная норма не имеет отношения к исходному тесту. На этом окольном пути они надеются четко сообщить свои выводы судье.

Предпочтительным тестом для данных, которые можно суммировать в таблицах непредвиденных обстоятельств, является точный тест Фишера. Появление «точного» в его названии особенно приятно истцам, поскольку оно означает статистическое определение, которое было сделано без ошибок (что бы это ни было!).

Вот моя (умозрительная реконструкция) расчеты Министерства труда.

$\chi^2$
Они преобразовали его p-значение в нормальную Z-оценку («число стандартных отклонений»).
Они округлили Z балл до ближайшего целого числа: «превышает три стандартных отклонения», «превышает пять стандартных отклонений» и «превышает шесть стандартных отклонений». (Поскольку некоторые из этих Z-показателей округляли до более стандартных отклонений, я не могу оправдать «превышение»; все, что я могу сделать, это процитировать его.)
В жалобе эти интегральные Z-оценки были преобразованы обратно в p-значения! Снова использовалось стандартное нормальное распределение.
Эти p-значения описываются (возможно, вводящим в заблуждение) как «вероятность того, что этот результат произошел по случайности».

$1/1280$ $1/565000$ $1/58000000$ $730$ $1160$ $130$ $730$ $1160$ $130$ $-3.16$ $-4.64$ $-5.52$ $1/741$ $1/3500000$ $1/1000000000$

Вот некоторый Rкод, используемый для выполнения этих расчетов.

f <- function(total, percent.asian, hired.asian, hired.non.asian) {
  asian <- round(percent.asian/100 * total)
  non.asian <- total-asian
  x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
              nrow = 2,
              dimnames=list(Race=c("Asian", "non-Asian"),
                            Status=c("Not hired", "Hired")))
  s <- fisher.test(x)
  s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))

Whuber
источник

Ничего себе, я не мог предположить, что это могло быть сделано. Это страшно.

Аксакал почти наверняка бинарный

(+1) CSI: Статистика.

Firebug

Как правильно рассчитать pvals с использованием гипергеометрического распределения:

$k$ $n$ $K$ $N$

Для одностороннего теста, в MATLAB, вы можете позвонить pval = hygecdf(k, N, K, n);или в этом случае, pval = hygecdf(1, 730, 562, 7)который составляет около .0007839.

Среднее и стандартное отклонение определяются как:

μ = n \frac{K}{N} s = \sqrt{n \frac{K}{N} \frac{N - K}{N} \frac{N - n}{N - 1}}

$\mu = n \frac{K}{N} \quad \quad \quad s = \sqrt{n \frac{K}{N} \frac{N - K}{N} \frac{N - n}{N-1}}$

$\chi^2$

В поисках формул, которые OFCCP может использовать, этот сайт, который я видел, может быть полезен: http://www.hr-software.net/EmploymentStatistics/DisparateImpact.htm

Краткое изложение некоторых расчетов:

\begin{array}{rrrr} Number and method & Part A & Part B & Part C \\ PVal from hypergeometric CDF & 7.839e-04 & 1.77e-06 & 1.72e-08 \\ χ^{2} stat & 15.68 & 33.68 & 37.16 \\ χ^{2} pval & 7.49e-05 & 6.47e-09 & 1.09e-09 \\ Pval from above document & .00135 & 2.94e-07 & 1.00e-09 \end{array}

$\begin{array}{rrrr} \text{Number and method} & \text{Part A} & \text{Part B} & \text{Part C} \\ \text{PVal from hypergeometric CDF} & \text{7.839e-04} & \text{1.77e-06} & \text{1.72e-08}\\ \chi^2 \text{ stat} & 15.68 & 33.68 & 37.16\\ \chi^2 \text{ pval} & \text{7.49e-05} & \text{6.47e-09} & \text{1.09e-09} \\ \text{Pval from above document} & .00135 & \text{2.94e-07} & \text{1.00e-09} \end{array}$

$\chi^2$ $\sum \frac{(\text{expected} - \text{actual})^2}{\text{expected}}$

Мэтью Ганн
источник

Я получил тот же результат, но по-другому. Это не близко к 1/741

Аксакал почти наверняка бинарный