Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например:
> soda_gender
f m
n 0 5
y 5 0
Очевидно, это резкое упрощение, но я не хотел, чтобы контекст мешал. Здесь я просто предположил, что мужчины не пьют газировку, а женщины пьют газировку, и хотел посмотреть, придут ли статистические процедуры к такому же выводу.
Когда я запускаю точный тест Фишера в R, я получаю следующие результаты:
> fisher.test(soda_gender)
Fisher's Exact Test for Count Data
data: soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.0000000 0.4353226
sample estimates:
odds ratio
0
Здесь, поскольку значение p равно 0,007937, мы пришли бы к выводу, что пол и потребление соды связаны между собой.
Я знаю, что точный критерий Фишера связан с гипергеомтерическим распределением. Поэтому я хотел получить аналогичные результаты, используя это. Другими словами, вы можете рассматривать эту проблему следующим образом: есть 10 шаров, 5 из которых помечены как «мужские», а 5 помечены как «женские», и вы случайным образом вытягиваете 5 шаров без замены, и вы видите 0 мужских шаров , Какова вероятность этого наблюдения? Чтобы ответить на этот вопрос, я использовал следующую команду:
> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254
Мои вопросы: 1) Почему два результата отличаются? 2) Есть ли что-то неправильное или не строгое в моих рассуждениях выше?
источник