Почему p-значения равномерно распределены по нулевой гипотезе?

115

Недавно я нашел в статье Klammer, et al. утверждение, что p-значения должны быть равномерно распределены. Я верю авторам, но не могу понять, почему это так.

Klammer, AA, Park, CY, и Stafford Noble, W. (2009) Статистическая калибровка функции SEQUEST XCorr . Журнал исследований протеома . 8 (4): 2106–2113.

golobor
источник
24
Это непосредственно следует из определения значения p как интегрального преобразования вероятности тестовой статистики с использованием распределения при нулевой гипотезе. Заключение требует, чтобы распределение было непрерывным. Когда распределение является дискретным (или имеет атомы), распределение значений р также является дискретным и, следовательно, может быть только приблизительно равномерным.
whuber
1
@whuber дал ответ, который я подозревал. Я попросил исходную ссылку просто для того, чтобы убедиться, что что-то не было потеряно при переводе. Обычно не имеет значения, является ли статья конкретной или нет, статистический контент всегда
просвечивает
10
Только тогда , когда верноH0 ! ... и более строго, только в случае непрерывности (хотя что-то похожее на истину в непостоянном случае; я не знаю подходящего слова для наиболее общего случая; это не единообразие). Тогда это следует из определения р-значения.
Glen_b
2
Это можно рассматривать как вариант фундаментального принципа статистической механики (при котором студенты часто испытывают схожие трудности с принятием), что все микросостояния физической системы имеют равную вероятность.
DWin
5
Как насчет претензии в этой статье: plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0076010 ?

Ответы:

83

Чтобы уточнить немного. Значение p распределяется равномерно, когда нулевая гипотеза верна и все остальные предположения выполнены. Причиной этого является определение альфа как вероятности ошибки типа I. Мы хотим, чтобы вероятность отклонения истинной нулевой гипотезы была альфа, мы отвергаем, когда наблюдаемое , единственный способ, которым это происходит для любого значения альфа, - это когда значение p получается из равномерного распределение. Весь смысл использования правильного распределения (normal, t, f, chisq и т. Д.) Состоит в том, чтобы преобразовать статистику теста в однородное p-значение. Если нулевая гипотеза ложна, то распределение значения p будет (надеюсь) более взвешенным в сторону 0.p-value<α

Функции Pvalue.norm.simи Pvalue.binom.simв пакете TeachingDemos для R будут имитировать несколько наборов данных, вычислять p-значения и наносить их на график, чтобы продемонстрировать эту идею.

Также см:

Мердок, D, Цай, Y и Adcock, J (2008). P-значения являются случайными величинами. Американский статистик , 62 , 242-245.

для более подробной информации.

Редактировать:

Поскольку люди все еще читают этот ответ и комментируют, я подумал, что смогу ответить на комментарий @ whuber.

Это правда, что при использовании составной нулевой гипотезы, такой как , p-значения будут равномерно распределены только тогда, когда средние 2 точно равны, и не будут одинаковыми, если имеет любое значение, которое меньше . Это легко увидеть, если использовать функцию и настроить ее для проведения одностороннего теста, а симуляция с помощью симуляции и гипотезы означает другое (но в направлении, чтобы сделать ноль истинным).μ 1 μ 2μ1μ2μ1μ2Pvalue.norm.sim

Что касается статистической теории, это не имеет значения. Подумайте, если я утверждаю, что я выше, чем каждый член вашей семьи, один из способов проверить это утверждение - сравнить мой рост с ростом каждого члена вашей семьи по одному. Другой вариант - найти члена вашей семьи, который является самым высоким, и сравнить его рост с моим. Если я выше этого человека, то и я выше остальных, и мое утверждение верно, если я не выше этого человека, то мое утверждение неверно. Тестирование составного нуля можно рассматривать как похожий процесс, а не тестирование всех возможных комбинаций, где мы можем проверить только часть равенства, потому что если мы можем отклонить это в пользуμ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1 μ 2 αμ1μ2μ1=μ2μ1>μ2тогда мы знаем, что мы также можем отказаться от всех возможностей . Если мы посмотрим на распределение значений p для случаев, когда распределение не будет идеально равномерным, но будет иметь больше значений ближе к 1, чем к 0, что означает, что вероятность ошибки типа I будет меньше выбранное значение делает его консервативным тестом. Униформа становится предельным распределением, когда становится ближе кμ1<μ2μ1<μ2αμ1μ2(люди, которые более современны в терминах теории статов, вероятно, могли бы утверждать это лучше в терминах распределительного супремума или чего-то подобного). Таким образом, создавая наш тест, принимая равную часть нуля, даже если значение NULL является составным, мы создаем наш тест таким образом, чтобы вероятность ошибки типа I не превышала для любых условий, в которых значение NULL равно true.α

Грег Сноу
источник
Извините за опечатку, которую я представил (следует прочитать \leqв TeX)!
ЧЛ
1
Статья «Р-значения - это случайные величины» действительно интересна, есть ли вводная книга, которая придерживается принципов, изложенных в статье?
Алессандро Якопсон
8
Несмотря на комментарий, который я разместил к вопросу, с тех пор я понял, что заключение неверно, за исключением особых случаев. Проблема возникает с составными гипотезами, такими как . «Нулевая гипотеза верна» теперь охватывает множество возможностей, например, случай . В таком случае значения p не будут равномерно распределены. Я подозреваю, что можно создать (несколько искусственные) ситуации, в которых, независимо от того, какой элемент нулевой гипотезы имеет место, распределение значений p никогда не будет почти равномерным. μ 1 = μ 2 - 10 6μ1μ2μ1=μ2106
whuber
1
@ Грег Сноу: Я думаю, что распределение значений p не всегда одинаково, оно одинаково, когда они вычисляются из непрерывного распределения, но не когда они вычисляются из дискретного распределения
1
Я расширил ответ выше, чтобы ответить на комментарий @whuber.
Грег Сноу
26

Согласно нулевой гипотезе, ваша тестовая статистика имеет распределение (например, стандартная норма). Покажем, что p-значение имеет распределение вероятностей другими словами, распределяется равномерно. Это верно до тех пор, пока является обратимым, необходимым условием которого является то, что не является дискретной случайной величиной.TF(t)P=F(T)

Pr(P<p)=Pr(F1(P)<F1(p))=Pr(T<t)p;
PF()T

Этот результат является общим: распределение обратимых CDF случайной величины равномерно на .[0,1]

Чарли
источник
8
Вы можете перефразировать свой последний комментарий, что немного сбивает с толку. Непрерывные CDF не обязательно имеют (правильный) обратный. (Можете ли вы вспомнить контрпример?) Итак, ваше доказательство требует выполнения дополнительных условий. Стандартный способ обойти это - определить псевдообратную . Аргумент становится более тонким, тоже. F(y)=inf{x:F(x)y}
кардинал
1
Что касается работы с обобщенными инверсиями, см. Link.springer.com/article/10.1007%2Fs00186-013-0436-7 (в частности, F (T) является равномерным, только если F непрерывен - не имеет значения, является ли F обратимым или не). Что касается вашего определения p-значения: я не думаю, что это всегда 'F (T)'. Это вероятность (при нулевом значении) принятия значения, более экстремального, чем наблюдаемое, так что это также может быть функцией выживания (если быть точным здесь).
Мариус Хоферт
Разве CDF? F(t)
Zyxue
@zyxue Да, cdf иногда называют «распространением».
Микарио
6

Обозначим через случайную величину с кумулятивной функцией распределения для всех . Предполагая, что обратимо, мы можем вывести распределение случайного p-значения следующим образом:TF(t)Pr(T<t)tFP=F(T)

Pr(P<p)=Pr(F(T)<p)=Pr(T<F1(p))=F(F1(p))=p,

из чего можно сделать вывод, что распределение равномерно на .P[0,1]

Этот ответ похож на ответ Чарли, но избегает необходимости определять .t=F1(p)

ИСИ
источник
Как вы определили F, не P = F (T) = Pr (T <T) = 0?
TrynnaDoStat
Не совсем так, «синтаксическая замена» несколько вводит в заблуждение. Формально говоря, является случайной величиной, определенной какF(T)=Pr(T<T)F(T)(F(T))(ω)=F(T(ω)):=Pr(T<T(ω))
jII
4

Простое моделирование распределения значений p в случае линейной регрессии между двумя независимыми переменными:

# estimated model is: y = a0 + a1*x + e

obs<-100                # obs in each single regression
Nloops<-1000            # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments

for(i in seq_along(output)){

x<-rnorm(obs) 
y<-rnorm(obs)

# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1

if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed

}

plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform
Qbik
источник
7
Не могли бы вы уточнить, как это отвечает на вопрос? Хотя его вывод иллюстрирует особый случай утверждения, никакое количество кода не сможет ответить на вопрос, почему ? Это требует дополнительного объяснения.
whuber
-1

Я не думаю, что большинство из этих ответов на самом деле отвечают на вопрос в целом. Они ограничены случаем, когда существует простая нулевая гипотеза и когда статистика теста имеет обратимый CDF (как в непрерывной случайной переменной, которая имеет строго увеличивающийся CDF). Эти случаи являются случаями, о которых обычно заботятся большинство людей с помощью z-теста и t-теста, хотя для тестирования биномиального среднего (например) такого CDF нет. То, что приведено выше, кажется правильным для этих ограниченных случаев.

Если нулевые гипотезы составные, то все немного сложнее. Наиболее общее доказательство этого факта, которое я видел в составном случае с использованием некоторых допущений относительно областей отклонения, приведено в «Проверка статистических гипотез» Лемана и Романо, стр. 63–64. Я постараюсь воспроизвести аргумент ниже ...

Мы тестируем нулевую гипотезу против альтернативной гипотезы на основе тестовой статистики, которую мы будем обозначать как случайной величины . Предполагается, что тестовая статистика поступает из некоторого параметрического класса, то есть , где - элемент семейства распределений вероятностей , а - пространство параметров. Нулевая гипотеза и альтернативная гипотеза образуют разбиение в этом H0H1XXPθPθP{PθθΘ}ΘH0:θΘ0H1:θΘ1Θ

Θ=Θ0Θ1
где
Θ0Θ1=.

Результат теста можно обозначить где для любого набора мы определяем Здесь - наш уровень значимости, а обозначает область отклонения теста для уровня значимости .

ϕα(X)=1Rα(X)
S
1S(X)={1,XS,0,XS.
αRαα

Предположим, что области отклонения удовлетворяют if . В этом случае вложенных областей отклонения полезно определить не только то, отклоняется или нет нулевая гипотеза на данном уровне значимости , но также определить наименьший уровень значимости, для которого нулевая гипотеза будет отклонена. Этот уровень известен как p-значение , Это число дает нам представление о насколько сильно данные (представленные в тестовой статистике ) противоречат нулевой гипотезе .

RαRα
α<αα
p^=p^(X)inf{αXRα},
XH0

Предположим, что для некоторого и что . Предположим дополнительно, что области отклонения подчиняются указанному выше свойству вложенности. Тогда имеет место следующее:XPθθΘH0:θΘ0Rα

  1. Если для всех , то для , supθΘ0Pθ(XRα)α0<α<1θΘ0

    Pθ(p^u)ufor all0u1.

  2. Если для у нас есть для всех , то для мы имеем θΘ0Pθ(XRα)=α0<α<1θΘ0

    Pθ(p^u)=ufor all0u1.

Обратите внимание, что это первое свойство просто говорит нам о том, что уровень ложных срабатываний контролируется для путем отклонения, когда значение p меньше , а второе свойство говорит нам (учитывая дополнительное предположение), что значения p равномерно распределены под нулем гипотеза.uu

Доказательство состоит в следующем:

  1. Пусть и предположим, что для всех . Тогда по определению мы имеем для всех . Из монотонности и предположения следует, что для всех . Если , то .θΘ0supθΘ0Pθ(XRα)α0<α<1p^{p^u}{XRv}u<vPθ(p^u)Pθ(XRv)vu<vvuPθ(p^u)u

  2. Пусть и предположим, что для всех . Тогда , и по монотонности следует, что . Учитывая (1), следует, что . θΘ0Pθ(XRα)=α0<α<1{XRu}{p^(X)u}u=Pθ(XRu)Pθ(p^u)Pθ(p^(X)u)=u

Обратите внимание, что предположение в (2) не выполняется, когда тестовая статистика дискретна, даже если нулевая гипотеза является простой, а не составной. Взять, к примеру, с и . Т.е., переверните монету десять раз и проверьте, справедливо ли она по отношению к головам (закодировано как 1). Вероятность увидеть 10 голов за 10 монетных бросков равна (1/2) ^ 10 = 1/1024. Вероятность увидеть 9 или 10 голов в 10 честных бросках монеты - 11/1024. Для любой строго между 1/1024 и 11/1024 вы бы отклонили ноль, если , но у нас нет этого для этих значений когдаXBinom(10,θ)H0:θ=.5H1:θ>0.5αX=10Pr(XRα)=ααθ=0.5 . Вместо для такой . Pr(XRα)=1/1024α

Адам
источник
Следует уточнить, что общность, представленная в Lehmann и Romano, относится к областям общего отклонения. Тем не менее, у вас есть только «действительные» p-значения для составных значений NULL и статистики не непрерывного теста.
Адам
-12

Если значения p равномерно распределены по H0, это означает, что вероятность того, что p-значение будет равно 0,05, равно значению p, равному 0,80, но это не так, поскольку вероятность того, что p-значение будет меньше, меньше. значение 0,05, чем значение р 0,80, потому что это точно определение нормального распределения, из которого берут значение р. По определению будет больше образцов, падающих в пределах нормы, чем вне ее. Поэтому с большей вероятностью можно найти большие значения p, чем меньшие.

Gahariet
источник
3
-1. Это совершенно неправильно. Интересно, кто проголосовал за это? Значения P под точкой H0 распределены равномерно.
амеба
1
-1. Это даже не имеет достаточного смысла, чтобы его можно было назвать неправильным: «диапазон нормальности» не имеет смысла, и p-значения изначально не имеют ничего общего с нормальным распределением.
whuber