Р-значение определяется вероятностью получения тест-статистики, по крайней мере, такой же экстремальной, как и наблюдаемая, при условии, что нулевая гипотеза верна. Другими словами,
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5))
hist(bimodal, breaks=100)
И давайте предположим, что мы наблюдаем статистическое значение теста 60. И здесь мы знаем из рисунка, что это значение очень маловероятно . Поэтому в идеале я хотел бы использовать статистическую процедуру, которую я использую (скажем, p-значение), чтобы выявить это. Но если мы вычислим значение p как определено, мы получим довольно высокое значение p
observed <- 60
# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993
Если бы я не знал о распределении, я бы заключил, что то, что я наблюдал, просто случайно. Но мы знаем, что это не так.
Я предполагаю, что у меня есть вопрос: почему при вычислении p-значения мы вычисляем вероятность для значений, «по крайней мере, таких же экстремальных, как» наблюдаемых? И если я сталкиваюсь с ситуацией, подобной той, которую я смоделировал выше, каково альтернативное решение?
Ответы:
Что делает тестовую статистику «экстремальной», зависит от вашей альтернативы, которая налагает порядок (или, по крайней мере, частичный порядок) на пространство выборки - вы стремитесь отклонить эти случаи наиболее согласованно (в смысле, измеряемом тестовой статистикой) с альтернатива.
Когда у вас действительно нет альтернативы, чтобы дать вам что-то, с чем можно было бы наиболее соответствовать, у вас, по сути, остается вероятность дать порядок, чаще всего наблюдаемый в точном тесте Фишера. Там вероятность результатов (таблицы 2х2) при нулевых порядках тестирует статистику (так что «экстремум» - это «низкая вероятность»).
Если бы вы оказались в ситуации, когда крайний левый (или крайний правый, или оба) вашего бимодального нулевого распределения был связан с видом альтернативы, который вас интересовал, вы бы не стали отклонять тестовую статистику 60. Но если вы находитесь в ситуации, когда у вас нет такой альтернативы, тогда 60 - это ненормально - у нее низкая вероятность; значение 60 не соответствует вашей модели и может привести к отклонению.
[Это будет рассматриваться некоторыми как одно из главных различий между проверкой гипотез Фишера и Неймана-Пирсона. Вводя явную альтернативу и соотношение правдоподобий, низкая вероятность при нулевом значении не обязательно заставит вас отказаться в рамках Неймана-Пирсона (если он работает относительно хорошо по сравнению с альтернативой), тогда как для Фишера у вас на самом деле нет альтернативы, и вероятность под нулем - это то, что вас интересует.]
Я не утверждаю, что любой из этих подходов является правильным или неправильным - вы сами решаете, против каких альтернатив вы стремитесь, будь то конкретный или просто что-то, что маловероятно при нулевом. Когда вы знаете, чего хотите, все остальное (включая то, что означает «по крайней мере, как крайность») в значительной степени следует из этого.
источник