Если распределение тестовой статистики является бимодальным, означает ли p-значение что-либо?

12

Р-значение определяется вероятностью получения тест-статистики, по крайней мере, такой же экстремальной, как и наблюдаемая, при условии, что нулевая гипотеза верна. Другими словами,

P(Xt|H0)
Но что если тест-статистика является бимодальной по распределению? означает ли p-значение что-либо в этом контексте? Например, я собираюсь смоделировать некоторые бимодальные данные в R:
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) 
hist(bimodal, breaks=100)

введите описание изображения здесь

И давайте предположим, что мы наблюдаем статистическое значение теста 60. И здесь мы знаем из рисунка, что это значение очень маловероятно . Поэтому в идеале я хотел бы использовать статистическую процедуру, которую я использую (скажем, p-значение), чтобы выявить это. Но если мы вычислим значение p как определено, мы получим довольно высокое значение p

observed <- 60

# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993

Если бы я не знал о распределении, я бы заключил, что то, что я наблюдал, просто случайно. Но мы знаем, что это не так.

Я предполагаю, что у меня есть вопрос: почему при вычислении p-значения мы вычисляем вероятность для значений, «по крайней мере, таких же экстремальных, как» наблюдаемых? И если я сталкиваюсь с ситуацией, подобной той, которую я смоделировал выше, каково альтернативное решение?

Alby
источник
7
Добро пожаловать в удивительный мир тестирования значимости нулевой гипотезы! Серьезно: я, честно говоря, не могу вспомнить тестовую статистику, которая имеет бимодальное распределение при нулевой гипотезе (которая является тем, что нам небезразлично в NHST). +1 за интересный вопрос, но я сомневаюсь в его практической значимости ... разве у вас есть конкретный пример?
Стефан Коласса
1
Я согласен с @StephanKolassa; конечно, есть распределения данных, которые являются бимодальными, но что это за тестовая статистика?
Питер Флом - Восстановить Монику
7
Я бы не согласился с характеристикой p-значений, предложенной первой формулой. Правильный смысл «по крайней мере, как крайность» в теории Неймана-Пирсона заключается в относительной вероятности, а не в обычном упорядочении вещественных чисел (как указано в формуле). Они эквивалентны во многих стандартных ситуациях тестирования, но резко отличаются, когда распределение выборки является бимодальным. Я думаю, что это различие удовлетворительно разрешит вопрос.
whuber
@whuber Не могли бы вы рассказать об этом немного, может быть, на простом примере?
Сабольч
2
@Szabolcs Пусть - бета- распределение а для пусть - равная смесь и ( ). PDF является однородным, в то время как PDF, скажем, является бимодальным с пиками в . Предположим, . Область отвержения для испытания LR из против состоит из двух интервалов , далекие от экстремумов --one околоGθ(θ,θ)θ1Fθ(x)Gθ(x)Gθ(x)x[1,1]F1F2±1/2XFθH0:XF1 HA:XF21 / 2 - 1 / 2 θ = 2±11/2а другой около потому что доказательства самые сильные там. 1/2θ=2
whuber

Ответы:

5

Что делает тестовую статистику «экстремальной», зависит от вашей альтернативы, которая налагает порядок (или, по крайней мере, частичный порядок) на пространство выборки - вы стремитесь отклонить эти случаи наиболее согласованно (в смысле, измеряемом тестовой статистикой) с альтернатива.

Когда у вас действительно нет альтернативы, чтобы дать вам что-то, с чем можно было бы наиболее соответствовать, у вас, по сути, остается вероятность дать порядок, чаще всего наблюдаемый в точном тесте Фишера. Там вероятность результатов (таблицы 2х2) при нулевых порядках тестирует статистику (так что «экстремум» - это «низкая вероятность»).

Если бы вы оказались в ситуации, когда крайний левый (или крайний правый, или оба) вашего бимодального нулевого распределения был связан с видом альтернативы, который вас интересовал, вы бы не стали отклонять тестовую статистику 60. Но если вы находитесь в ситуации, когда у вас нет такой альтернативы, тогда 60 - это ненормально - у нее низкая вероятность; значение 60 не соответствует вашей модели и может привести к отклонению.

[Это будет рассматриваться некоторыми как одно из главных различий между проверкой гипотез Фишера и Неймана-Пирсона. Вводя явную альтернативу и соотношение правдоподобий, низкая вероятность при нулевом значении не обязательно заставит вас отказаться в рамках Неймана-Пирсона (если он работает относительно хорошо по сравнению с альтернативой), тогда как для Фишера у вас на самом деле нет альтернативы, и вероятность под нулем - это то, что вас интересует.]

Я не утверждаю, что любой из этих подходов является правильным или неправильным - вы сами решаете, против каких альтернатив вы стремитесь, будь то конкретный или просто что-то, что маловероятно при нулевом. Когда вы знаете, чего хотите, все остальное (включая то, что означает «по крайней мере, как крайность») в значительной степени следует из этого.

Glen_b - Восстановить Монику
источник