Понимание р-значения

Я знаю, что есть много материалов, объясняющих р-значение. Однако эту концепцию нелегко понять без дальнейшего разъяснения.

Вот определение p-значения из Википедии:

Значение p - это вероятность получения тестовой статистики, по крайней мере, такой же экстремальной, как и та, которая фактически наблюдалась, при условии, что нулевая гипотеза верна. ( http://en.wikipedia.org/wiki/P-value )

Мой первый вопрос касается выражения «по крайней мере, такого же крайнего, как тот, который действительно наблюдался». Мое понимание логики, лежащей в основе использования p-значения, заключается в следующем: если p-значение мало, маловероятно, что наблюдение произошло в предположении нулевой гипотезы, и нам может потребоваться альтернативная гипотеза для объяснения наблюдения. Если значение p не так мало, вероятно, что наблюдение происходило только в предположении нулевой гипотезы, и альтернативная гипотеза не обязательна для объяснения наблюдения. Поэтому, если кто-то хочет настоять на гипотезе, он / она должен показать, что значение p нулевой гипотезы очень мало. Имея это в виду, мое понимание неоднозначного выражения состоит в том, что p-значение равно $\min[P(X<x),P(x<X)]$ , если PDF статистики является унимодальным, где - тестовая статистика, а - ее значение, полученное из наблюдения. Это правильно? Если это правильно, все еще применимо ли использование бимодального PDF статистики? Если два пика PDF хорошо разделены и наблюдаемое значение находится где-то в области низкой плотности вероятности между двумя пиками, то в каком интервале р-значение дает вероятность? $X$ $x$

Второй вопрос о другом определении р-значения от Wolfram MathWorld:

Вероятность того, что вариация будет принимать значение, большее или равное наблюдаемому значению, строго случайно. ( http://mathworld.wolfram.com/P-Value.html )

Я понял, что фразу «строго случайно» следует интерпретировать как «принятие нулевой гипотезы». Это правильно?

Третий вопрос касается использования «нулевой гипотезы». Давайте предположим, что кто-то хочет настаивать на том, что монета справедлива. Он высказывает гипотезу, что относительная частота голов составляет 0,5. Тогда нулевая гипотеза «относительная частота головок не 0,5». В этом случае, хотя вычисление p-значения нулевой гипотезы затруднительно, вычисление легко для альтернативной гипотезы. Конечно, проблему можно решить, поменяв роль двух гипотез. Мой вопрос заключается в том, что отклонение или принятие, основанное непосредственно на p-значении исходной альтернативной гипотезы (без введения нулевой гипотезы), заключается в том, в порядке ли это или нет. Если это не так, то как обычно обходить такие трудности при расчете p-значения нулевой гипотезы?

Я разместил новый вопрос, который более ясен на основе обсуждения в этой теме.

hypothesis-testing p-value interpretation JDL
источник

Возможный интерес: есть ли ошибка в одностороннем биномиальном тесте в R?

Вы уловили тонкость, которая часто остается нераспознанной: «более экстремальный» должен измеряться в терминах относительной вероятности альтернативной гипотезы, а не в явном (но не в целом правильном) смысле быть дальше в хвосте нулевой выборки. распределение. Это явно выражено в формулировке леммы Неймана-Пирсона , которая используется для обоснования многих проверок гипотез и определения их критических областей (и, следовательно, их p-значений). Продумывание этого поможет ответить на ваш первый вопрос.

whuber

Насколько я помню, лемма Неймана-Пирсона оптимальна для простых и простых тестов гипотез (Ho: mu = mu_0, Ha: mu = mu_a). Для составных тестов (Ho: mu = mu_0, Ha: mu> mu_a) существует альтернативный тест.

RobertF

Ответы:

Первый ответ

Вы должны думать о концепции экстремума с точки зрения вероятности тестовой статистики, а не с точки зрения ее значения или значения тестируемой случайной величины. Я сообщаю о следующем примере от Christensen, R. (2005). Тестирование Фишера, Неймана, Пирсона и Байеса . Американский статистик , 59 (2), 121–126

r | 1 2 3 4 p (r | θ = 0) | 0.980 0.005 0.005 0.010 p v a l u e | 1.0 0.01 0.01 0.02

$\phantom{(r\;|\;\theta=0}r\; | \quad 1 \quad \quad 2 \quad \quad 3 \quad \quad 4\\ p(r\;|\;\theta=0) \; |\; 0.980\;0.005\; 0.005\; 0.010\\ \quad p\;\mathrm{value} \; \; | \;\; 1.0 \quad 0.01 \quad 0.01 \;\; 0.02$

Здесь - наблюдения, вторая строка - вероятность наблюдения данного наблюдения при нулевой гипотезе , которая используется здесь в качестве тестовой статистики, третья строка - значение . Мы находимся здесь в рамках теста Фишера: существует одна гипотеза ( , в данном случае ), согласно которой мы хотим увидеть, являются ли данные странными или нет. Наблюдения с наименьшей вероятностью составляют 2 и 3 с 0,5% каждое. Если вы получите 2, например, вероятность наблюдать что-то как вероятное или менее вероятное ( и $r$ $\theta=0$ $p$ $H_0$ $\theta=0$ $r=2$ $r=3$ ) составляет 1%. Наблюдение не вносит вклад в значение , хотя оно находится еще дальше (если существует отношение порядка), поскольку оно имеет более высокую вероятность наблюдения. $r=4$ $p$

Это определение работает в целом, так как оно включает как категориальные, так и многомерные переменные, где отношение порядка не определено. В случае единой количественной переменной, где вы наблюдаете некоторое отклонение от наиболее вероятного результата, возможно, имеет смысл вычислить одностороннее значение и рассмотреть только те наблюдения, которые находятся на одной стороне распределения тестовой статистики. $p$

Второй ответ

Я полностью не согласен с этим определением из Mathworld.

Третий ответ

Должен сказать, что я не совсем уверен, что понял ваш вопрос, но постараюсь дать несколько замечаний, которые могут вам помочь.

В простейшем контексте тестирования Фишера, когда у вас есть только нулевая гипотеза, это должно быть статус-кво . Это потому, что тестирование по Фишеру работает, по сути, по противоречию. Таким образом, в случае с монетой, если у вас нет причин думать иначе, вы бы предположили, что она справедлива, . Затем вы вычисляете значение для ваших данных под и, если ваше значение ниже предварительно определенного порога, вы отклоняете гипотезу (доказательство от противного). Вы никогда не вычисляете вероятность нулевой гипотезы. $H_0: \theta=0.5$ $p$ $H_0$ $p$

С помощью тестов Неймана-Пирсона вы определяете две альтернативные гипотезы и, исходя из их относительной вероятности и размерности векторов параметров, предпочитаете ту или иную. Это можно увидеть, например, при проверке гипотезы о смещенной и несмещенной монете. Беспристрастный означает фиксацию параметра на (размерность этого пространства параметров равна нулю), в то время как смещение может принимать любое значение (размерность равна единице). Это решает проблему попыток противоречить гипотезе о предвзятости путем противоречия, что было бы невозможно, как объяснил другой пользователь. Фишер и Н.П. дают схожие результаты при большой выборке, но они не совсем эквивалентны. Здесь ниже простой код в R для смещенной монеты. $\theta=0.5$ $\theta \neq 0.5$

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher

Zag
источник

+1 за указание на замечательную статью, о которой я не знал. (Также для некоторого столь необходимого скептицизма по поводу полезности статистики Mathworld).

conjugateprior

Большое спасибо! Таким образом, p-значение равно \ int_ {x: f (x) <= k} f, где f - PDF тестовой статистики, а k - наблюдаемое значение статистики. Еще раз спасибо

JDL

Что касается третьего ответа, то в вашем ответе доказана несправедливость монеты, поскольку допущение о справедливости отвергается. Напротив, чтобы доказать справедливость монеты противоречием, я должен предположить несправедливость \ theta \ neq 0.5 и вычислить p-значение моих данных. Как я могу это сделать? Моя точка зрения заключается в трудности, возникшей из-за признака несправедливости. Нужно ли вводить какой-то уровень терпимости для справедливости, скажем, 0,4 <\ theta <0,6, и рассчитывать p-значение в терминах \ theta и интегрировать его по 0 <\ theta <0,4 и 0,6 <\ theta <1?

JDL

Еще один вопрос. Эта ссылка объясняет «одностороннее» р-значение. В нем говорится, что одностороннее р-значение отвечает на такие вопросы, как «нулевая гипотеза, что две популяции действительно одинаковы ... какова вероятность того, что случайно выбранные выборки будут иметь средства настолько далеко друг от друга, как (или дальше), наблюдаемые в этом эксперименте с указанная группа имеет большее среднее значение? Это правильное использование одностороннего р-значения? Я думаю, что сама нулевая гипотеза должна быть выражена как неравенство в этом случае (вместо равенства и одностороннего критерия).

JDL

@ Заг, я скорее не согласен с этим ответом: вам не нужно думать о концепции экстремума с точки зрения вероятности. Проще говоря, в этом примере вероятность под нулем используется в качестве тестовой статистики, но это не обязательно. Например, если отношение правдоподобия, как упомянуто whuber, используется в качестве тестовой статистики, оно, как правило, не помещает возможные выборки в тот же порядок, что и вероятность при нулевом значении. Другие статистические данные выбираются для максимальной мощности против указанной альтернативы или всех альтернатив или для высокой мощности против неопределенно определенного набора.

Scortchi - Восстановить Монику

(1) Статистика - это число, которое вы можете рассчитать по выборке. Он используется для того, чтобы упорядочить все образцы, которые вы могли получить (по предполагаемой модели, где монеты не попадают на их края и что у вас). Если - это то, что вы вычисляете из выборки, которую вы на самом деле получили, & - соответствующая случайная величина, тогда p-значение задается как при нулевой гипотезе . «Больше, чем« против »более экстремально» в принципе неважно. Для двустороннего теста на нормальное среднее мы могли бы использовать $t$ $T$ $\newcommand{\pr}{\mathrm{Pr}} \pr\left(T\geq t\right)$ $H_0$ $\pr(|Z|\geq |z|)$ но удобно использовать потому что у нас есть соответствующие таблицы. (Обратите внимание на удвоение.) $2\min [\pr(Z\geq z),\pr(Z\leq z)]$

Для статистики теста не требуется располагать выборки в порядке их вероятности при нулевой гипотезе. Есть ситуации (например , например , заг в) , где любом другом пути будет казаться извращенным (без дополнительной информации о том, что мер, какие расхождения с представляют наибольший интерес, и с.), Но используются часто и другие критерии. Таким образом, вы могли бы иметь бимодальный PDF для статистики теста и все еще тестировать используя формулу выше. $r$ $H_0$ $H_0$

(2) Да, они имеют в виду под . $H_0$

(3) Нулевая гипотеза типа «частота голов не 0,5» бесполезна, потому что вы никогда не сможете ее отвергнуть. Это составной ноль, включающий «частоту голов 0,49999999», или как можно ближе. Независимо от того, думаете ли вы заранее, что монета справедлива или нет, вы выбираете полезную нулевую гипотезу, которая имеет отношение к проблеме. Возможно, более полезным после эксперимента является вычисление доверительного интервала для частоты головок, который показывает, что это либо явно несправедливая монета, либо она достаточно близка к честной, либо вам нужно провести больше испытаний, чтобы выяснить это.

Иллюстрация для (1):

$2^{10}$

$\mathsf{HHHHHHHHHH}\\ \mathsf{HTHTHTHTHT}\\ \mathsf{HHTHHHTTTH}$

Вы, вероятно, согласитесь со мной, что первые два выглядят немного подозрительно. Все же вероятности под нулем равны:

$\mathrm{Pr}(\mathsf{HHHHHHHHHH}) = \frac{1}{1024}\\ \mathrm{Pr}(\mathsf{HTHTHTHTHT}) = \frac{1}{1024}\\ \mathrm{Pr}(\mathsf{HHTHHHTTTH}) = \frac{1}{1024}$

Чтобы добраться куда угодно, вам нужно подумать, какие альтернативы нулю вы хотите проверить. Если вы готовы принять независимость каждого броска как при нулевом, так и при альтернативном (а в реальных ситуациях это часто означает очень усердную работу для обеспечения независимости экспериментальных испытаний), вы можете использовать общее количество голов в качестве статистики теста, не теряя информацию , (Разделение выборочного пространства таким способом является еще одной важной работой, которую выполняет статистика.)

Таким образом, у вас есть счет от 0 до 10

t<-c(0:10)

Его распределение под нулем

p.null<-dbinom(t,10,0.5)

$\frac{3}{10}$

p.alt<-dbinom(t,10,t/10)

Возьмем отношение вероятности под нулем к вероятности под альтернативой (так называемое отношение правдоподобия):

lr<-p.alt/p.null

Сравнить с

plot(log(lr),p.null)

Таким образом, для этого нулевого значения, два статистических порядка порядка одинаковы. Если вы повторяете с нулевым 0,85 (т. Е. Проверяете, что долгосрочная частота головок составляет 85%), они этого не делают.

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

лрт гоф тест

Чтобы понять почему

plot(t,p.alt)

$t$

$\mathsf{HTHTHTHTHT}$

И это хорошо - каждый образец можно считать экстремальным с некоторой точки зрения. Вы выбираете тестовую статистику в соответствии с тем, какое несоответствие нулю вы хотите обнаружить.

$r$

$\mathsf{HHTHHHTTTH}$

$r=6$

$\mathsf{HH}\ \mathsf{T}\ \mathsf{HHH}\ \mathsf{TTT}\ \mathsf{H}$

Подозрительная последовательность

$\mathsf{HTHTHTHTHT}$

$r=10$

$\mathsf{THTHTHTHTH}$

в то время как в другой крайности

$\mathsf{HHHHHHHHHH}\\ \mathsf{TTTTTTTTTT}$

имеют $r=1$ , Используя вероятность под нулем в качестве тестовой статистики (как вам нравится), вы можете сказать, что p-значение выборки

$\mathsf{HTHTHTHTHT}$

следовательно является $\frac{4}{1024}=\frac{1}{256}$ , Что примечательно, сравнивая этот тест с предыдущим, так это то, что даже если вы строго придерживаетесь порядка, заданного вероятностью под нулем, то, как вы определяете свою статистику теста для разделения пространства выборки, зависит от рассмотрения альтернатив.

Scortchi - Восстановить Монику
источник

Вы говорите, что определение Pr (T \ ge t; H_0) может быть применимо к любому мультимодальному (в том числе бимодальному) PDF тестовой статистики. Затем вы и Заг даете разные значения p для мультимодального PDF тестовой статистики. ИМХО, определение Зага более резонно, потому что роль р-значения заключается в количественной оценке того, насколько вероятно (или странно) наблюдение под нулевой гипотезой, как он указал. Каково ваше обоснование определения Pr (T \ ge t; H_0)?

JDL

@JDL, это просто определение р-значения. Тогда возникает вопрос, как найти «хорошую» статистику теста (и как определить «хорошую»). Иногда вероятность под нулем (или любая функция данных, которая дает тот же порядок) используется в качестве тестовой статистики. Иногда есть веские причины выбирать других, которые занимают много места в книгах по теоретической статистике. Я думаю, будет справедливо сказать, что они предполагают явное или неявное рассмотрение альтернатив. ...

Scortchi - Восстановить Монику

@JDL, ... И если конкретное наблюдение имеет низкую вероятность как при нулевом, так и при альтернативном, кажется разумным не рассматривать его как экстремальное.

Scortchi - Восстановить Монику

Спасибо за ваши ответы, @ Scortchi. Я разместил новый вопрос и видел ваши комментарии только сейчас после публикации. Во всяком случае, я до сих пор не ясно, определение. Еще раз спасибо за ваши любезные ответы.

JDL

Я добавил иллюстрацию

Scortchi - Восстановить Монику