Отказ от гипотезы с использованием p-значения, эквивалентного гипотезе, не относящейся к доверительному интервалу?

29

При формальном выводе доверительного интервала оценки я получил формулу, очень похожую на способ вычисления p значения.

Таким образом, вопрос: формально они эквивалентны? Т.е. отвергает гипотезу H0=0 с критическим значением α эквивалентным 0 не принадлежащему доверительному интервалу с критическим значениемα ?

Хорхе Лейтао
источник
2
@f coppens: да, если используются два теста с разной статистикой, вы получите два разных доверительных интервала. Но я думаю, что OP обнаружил основной факт: и доверительный интервал, и значение p получены из распределения одной и той же статистики, поэтому оба они могут быть использованы для принятия решения об отклонении нулевой гипотезы или нет.
StijnDeVuyst
1
@StijnDeVuyst: интервал Клоппера / Пирона для пропорции и интервал Стерна для пропорции получены из биномиального распределения с одинаковым размером (p неизвестно, поскольку они находят доверительный интервал для p). Разница между Клоппером / Пирсоном и Стерном обусловлена ​​асимметрией биномиальной плотности. Интервал Стерна пытается минимизировать ширину интервала, а Clopper_pearson пытается сохранить симметрию (но из-за асимметрии бинома это можно найти только приблизительно).
6
Нет, вообще нет. Рассмотрим случаи, когда ширина интервала является функцией предполагаемого значения параметра, тогда как для теста ширина интервала является функцией предполагаемого. Очевидным примером было бы тестирование бинома p. Давайте использовать нормальный ок. для простоты (хотя форма аргумента не полагается на это). Рассмотрим n = 10 и ноль при p = 0.5. Представьте себе наблюдение 2 голов; NULL не отклоняется (потому что «2» находится внутри 95% -го интервала около 0,5), но CI для p не включает 0,5 (потому что CI уже, чем ширина интервала под нулем.
Glen_b -Reinstate Monica
4
Или, если вам нужно, чтобы он был достаточно большим, чтобы нормальное приближение было хорошим, попробуйте 469 головок в 1000 бросков, для H0 p = 0,5; опять же, 95% CI для p не включает 0,5, но тест 5% не отклоняет, потому что соответствующая ширина интервала при H0 шире, чем при альтернативе (из чего вы делаете CI).
Glen_b
4
@Glen_b: Кажется, что этот новый вопрос stats.stackexchange.com/questions/173005 предоставляет пример именно той ситуации, которую вы здесь описывали.
говорит амеба, восстанови Монику

Ответы:

32

Да и нет.

Сначала "да"

Вы заметили, что когда тест и доверительный интервал основаны на одной и той же статистике, между ними существует эквивалентность: мы можем интерпретировать значение как наименьшее значение α, для которого нулевое значение параметра будет быть включены в 1 - α доверительный интервал.pα1α

Пусть - неизвестный параметр в пространстве параметров Θ R , и пусть образец x = ( x 1 , , x n ) X nR n - реализация случайной величины X = ( X 1 , , Х н ) . Для простоты определим доверительный интервал I α ( X ) как случайный интервал, так что его вероятность покрытия P θθΘRx=(x1,,xn)XnRnX=(X1,,Xn)Iα(X) (Аналогичным образом можно рассмотреть более общие интервалы, где вероятность покрытия либо ограничена, либо приблизительно равна 1 - α

Pθ(θIα(X))=1αfor all α(0,1).
1α . Рассуждения аналогичны.)

Рассмотрим двусторонний тест точечной нулевой гипотезы против альтернативной области отклонения H 1 представляет собой наборH0(θ0):θ=θ0 . Пусть λ ( θ 0 , x ) обозначает p-значение теста. Для любого альфа ( 0 , 1 ) , Н 0 ( θ 0 ) отклоняется на уровне & alpha ; еслиH1(θ0):θθ0λ(θ0,x)α(0,1)H0(θ0)α . Областьуровня α λ ( θ 0 , x ) α } .λ(θ0,x)αα которое приводит к отклонению H 0 ( θ 0 ) : R α ( θ 0 ) = { xR n :xH0(θ0)

Rα(θ0)={xRn:λ(θ0,x)α}.

Теперь рассмотрим семейство двусторонних тестов с p-значениями для θ Θ . Для такого семейства мы можем определить инвертированную область отклонения Q α ( x ) = { θ Θ : λ ( θ , x ) α } .λ(θ,x)θΘ

Qα(x)={θΘ:λ(θ,x)α}.

При любом фиксированном , Н 0 ( θ 0 ) отклоняется , если хR α ( θ 0 ) , что происходит тогда и только тогда , когда θ 0Q α ( х ) , то есть хR α ( θ 0 ) θ 0Q α ( x ) . Если тест основан на тестовой статистике с полностью заданным абсолютно непрерывным нулевым распределением, тоθ0H0(θ0)xRα(θ0)θ0Qα(x)

xRα(θ0)θ0Qα(x).
при H 0 ( θ 0 ) . Тогда Р θ 0 ( ; & alpha ; ) = & alpha ; . Поскольку это уравнение верно для любого θ 0Θλ(θ0,X)U(0,1)H0(θ0)
Pθ0(XRα(θ0))=Pθ0(λ(θ0,X)α)=α.
θ0Θи так как уравнение над ней следует , что отсюда следует , что случайный набор Q α ( х ) всегда покрывает истинный параметр θ 0 с вероятностью C α ( x ) обозначает дополнение к Q
Pθ0(XRα(θ0))=Pθ0(θ0Qα(X)),
Qα(x)θ0 . Следовательно, пусть QαQαC(x) , для всех θ 0Θ имеем P θ 0 ( θ 0Q C α ( X ) ) = 1 - α , что означает, что дополнением к области перевернутого отклонения является 1 - α доверительный интервал для θ ,Qα(x)θ0Θ
Pθ0(θ0QαC(X))=1α,
1αθ

zθx¯σ=1H0(θ)(x¯,θ)R0.05(0.9)=(,1.52)(0.281,)I0.05(1/2)=Q0.05C(1/2)=(0.120,1.120)введите описание изображения здесь

(Многое из этого взято из моей кандидатской диссертации .)

Теперь для «нет»

θX . Обычно такие интервалы не соответствуют тесту.

Это явление связано с проблемами, связанными с тем, что такие интервалы не являются вложенными, а это означает, что интервал 94% может быть короче интервала 95%. Подробнее об этом см. Раздел 2.5 этой моей недавней статьи (появится в Бернулли).

И второе "нет"

θ0=0 может быть отклонен с помощью теста , даже если 0 входит в доверительный интервал. Это не противоречит приведенному выше «да», так как используются разные статистические данные.

И иногда "да" не очень хорошая вещь

Как указывает f Коппенс в комментарии, иногда интервалы и тесты имеют несколько противоречивые цели. Мы хотим короткие интервалы и тесты с высокой мощностью, но самый короткий интервал не всегда соответствует тесту с самой высокой мощностью. Некоторые примеры этого см. В этой статье (многомерное нормальное распределение), или в этом (экспоненциальное распределение), или в разделе 4 моей диссертации .

Байесовцы могут также сказать, да и нет

Несколько лет назад я разместил здесь вопрос о том, существует ли эквивалентность тестового интервала также в байесовской статистике. Короткий ответ: при стандартном тестировании байесовских гипотез ответом будет «нет». Немного переформулировав проблему тестирования, можно получить ответ «да». (Мои попытки ответить на мой собственный вопрос в конечном итоге превратились в бумагу !)

MånsT
источник
2
Хороший ответ (+1) и (вы частично делаете это) может быть полезно указать на тот факт, что иногда доверительные интервалы и проверки гипотез имеют (потенциально) противоречивые цели: каждый пытается найти доверительный интервал «как можно меньше», в то время как для проверки гипотезы пытаются найти критическую область «настолько мощную, насколько это возможно».
@fcoppens: Спасибо за предложение! Я обновил свой ответ несколькими строчками об этом.
MånsT
Отличный тезис! Вы также работали на интервале Стерна?
@fcoppens: Да, я немного поработал над интервалом Стерна, в основном в этой статье
MånsT
7
T1=(p^p)/p^(1p^)/nT2=(p^p)/p(1p)/n