Точный критерий Фишера и гипергеометрическое распределение

12

Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например:

> soda_gender

    f m
  n 0 5
  y 5 0

Очевидно, это резкое упрощение, но я не хотел, чтобы контекст мешал. Здесь я просто предположил, что мужчины не пьют газировку, а женщины пьют газировку, и хотел посмотреть, придут ли статистические процедуры к такому же выводу.

Когда я запускаю точный тест Фишера в R, я получаю следующие результаты:

> fisher.test(soda_gender)
Fisher's Exact Test for Count Data

data:  soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.0000000 0.4353226
sample estimates:
odds ratio 
         0 

Здесь, поскольку значение p равно 0,007937, мы пришли бы к выводу, что пол и потребление соды связаны между собой.

Я знаю, что точный критерий Фишера связан с гипергеомтерическим распределением. Поэтому я хотел получить аналогичные результаты, используя это. Другими словами, вы можете рассматривать эту проблему следующим образом: есть 10 шаров, 5 из которых помечены как «мужские», а 5 помечены как «женские», и вы случайным образом вытягиваете 5 шаров без замены, и вы видите 0 мужских шаров , Какова вероятность этого наблюдения? Чтобы ответить на этот вопрос, я использовал следующую команду:

> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254

Мои вопросы: 1) Почему два результата отличаются? 2) Есть ли что-то неправильное или не строгое в моих рассуждениях выше?

Alby
источник

Ответы:

10

Точный критерий Фишера работает путем кондиционирования на полях стола (в данном случае 5 мужчин и женщин и 5 пьющих и не пьющих газировку). Согласно предположениям нулевой гипотезы, вероятности ячейки для наблюдения за мужчиной, пьющим газировку, мужчиной, не пьющим газировку, женщиной, пьющей газировку, или женщиной, не пьющей газировку, все одинаково вероятны (0,25) из-за общих значений запаса.

Конкретная таблица, которую вы использовали для FET, не имеет таблицы, кроме ее обратного: 5 женщин, не пьющих газировку, и 5 мужчин, пьющих газировку, что "по крайней мере так же маловероятно" согласно нулевой гипотезе. Таким образом, вы заметите, что удвоение вероятности, которую вы получили в своей гипергеометрической плотности, дает вам значение FET p.

Adamo
источник
Заметки Менга о phyper и fisher.test (которые делают то же самое, но имеют совершенно другой интерфейс) очень полезны: mengnote.blogspot.qa/2012/12/…
Aditya,