Обоснование проверки односторонней гипотезы

35

Я понимаю проверку двусторонних гипотез. У вас есть (против H 1 = ¬ H 0 : θ θ 0 ). Значение p - это вероятность того, что θ сгенерирует данные, по крайней мере, такие же экстремальные, как наблюдалось.H0:θ=θ0H1=¬H0:θθ0pθ

Я не понимаю проверку односторонних гипотез. Здесь (против H 1 = ¬ H 0 : θ > θ 0 ). Определение значения p не должно было изменяться сверху: вероятность того, что θ генерирует данные, должна быть, по крайней мере, такой же экстремальной, как и наблюдавшаяся. Но мы не знаем θ , только то, что оно ограничено сверху θ 0 .H0:θθ0H1=¬H0:θ>θ0θ θθ0

Поэтому вместо этого я вижу тексты, в которых говорится, что мы предполагаем, что (а не θ θ 0 в соответствии с H 0 ), и рассчитываем вероятность того, что при этом будут получены данные, по крайней мере, такие же экстремальные, как и то, что наблюдалось, но только на одном конце. Это, похоже, не имеет ничего общего с гипотезами, технически.θ=θ0θθ0H0

Теперь я понимаю , что это частотная проверка гипотезы, и что frequentists не устанавливают априорные на их s. Но разве это не должно означать, что гипотезы тогда невозможно принять или отвергнуть, вместо того, чтобы включить приведенный выше расчет в картину?θ

Ян
источник
Аналогичный вопрос был задан позже stats.stackexchange.com/questions/8196/…
Робин Джирард
1
Ваше определение значения неполно. Следует читать (выделение добавлено): p- значение - это вероятность того, что θ генерирует данные, по крайней мере, настолько экстремальные, как наблюдалось, предполагая, что нулевая гипотеза верна . ppθ
Алексис

Ответы:

34

Это вдумчивый вопрос. Многие тексты (возможно, по педагогическим соображениям) посвящены этой проблеме. Что действительно происходит, так это то, что - это составная «гипотеза» в вашей односторонней ситуации: на самом деле это набор гипотез, а не одна. Необходимо, чтобы для каждой возможной гипотезы в H 0H0 H0вероятность падения статистики теста в критической области должна быть меньше или равна размеру теста. Более того, если тест на самом деле должен достичь своего номинального размера (что хорошо для достижения высокой мощности), то верхний предел этих шансов (взятых по всем нулевым гипотезам) должен равняться номинальному размеру. На практике для простых однопараметрических тестов местоположения, включающих определенные «хорошие» семейства распределений, этот супремум достигается для гипотезы с параметром . Таким образом, на практике все вычисления сосредоточены на этом одном распределении. Но мы не должны забывать об остальной части множества H 0θ0H0Это принципиальное различие между двусторонними и односторонними тестами (и между «простыми» и «составными» тестами в целом).

Это тонко влияет на интерпретацию результатов односторонних испытаний. Когда ноль отклоняется, мы можем сказать, что доказательства указывают на то, что истинное состояние природы является любым из распределений в . Когда ноль не отклоняется, мы можем только сказать, что существует распределение в H 0, которое "согласуется" с наблюдаемыми данными. Мы не говорим, что все распределения в H 0 соответствуют данным: это далеко не так! Многие из них могут привести к крайне низким вероятностям.H0H0H0

Whuber
источник
Все, что вы сказали, является действительным и важным. Другой важный аспект, который я считаю, заключается в том, что обычно нулевая гипотеза рассматривается как неинтересная гипотеза. Альтернатива рассматривается как научная гипотеза. Это тот, который экспериментатор хотел бы доказать. Я говорю обычно, потому что это отличается в тестах эквивалентности и неуменьшенности. Теперь, что касается вопроса одностороннего тестирования, мы говорим только о стороне, у которой параметр больше, чем интересующее нулевое значение. Таким образом, все значения на стороне меньше включены в нуль.
Майкл Р. Черник
stats.stackexchange.com/questions/333301/… Если вы хотите дать ответ на этот вопрос или указать мне какую-нибудь библиографию ...;)
Старик в море.
2

Вы бы использовали односторонний тест гипотезы, если только результаты в одном направлении подтверждают вывод, к которому вы пытаетесь прийти.

Думайте об этом с точки зрения вопроса, который вы задаете. Предположим, например, что вы хотите увидеть, приводит ли ожирение к увеличению риска сердечного приступа. Вы собираете свои данные, которые могут состоять из 10 людей с ожирением и 10 людей без ожирения. Теперь предположим, что из-за неучтенных смешанных факторов, плохого эксперимента или просто неудачи вы наблюдаете, что только у 2 из 10 людей с ожирением случается сердечный приступ, по сравнению с 8 людьми без ожирения.

Теперь, если вы проведете двухстороннюю проверку гипотезы на этих данных, вы придете к выводу, что существует статистически значимая связь (p ~ 0,02) между ожирением и риском сердечного приступа. Тем не менее, ассоциация будет в направлении, противоположном тому, что вы на самом деле ожидали увидеть, следовательно, результат теста будет вводить в заблуждение.

(В реальной жизни эксперимент, который дал такой противоречивый результат, мог бы привести к появлению дополнительных вопросов, которые интересны сами по себе: например, процесс сбора данных может потребоваться улучшить, или могут быть неизвестные ранее факторы риска на работе, или может быть, общепринятая мудрость просто ошибочна. Но эти вопросы на самом деле не связаны с узким вопросом о том, какой тип проверки гипотезы использовать.)

Хонг Оои
источник
2

pH0H00.5H10.5

H0H00.75H10.25

H1H0H0

Вы можете поэкспериментировать с этим игрушечным примером в R самостоятельно, вы также должны попробовать разные абсолютные числа и комбинации голов и хвостов:

> binom.test(2,2,alternative="two.sided")

    Exact binomial test

data:  2 and 2
number of successes = 2, number of trials = 2, p-value = 0.5
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.1581139 1.0000000
sample estimates:
probability of success 
                     1

> binom.test(2,2,alternative="greater")

    Exact binomial test

data:  2 and 2
number of successes = 2, number of trials = 2, p-value = 0.25
alternative hypothesis: true probability of success is greater than 0.5
95 percent confidence interval:
 0.2236068 1.0000000
sample estimates:
probability of success 
                     1 
vonjd
источник