Я знаю, что есть много материалов, объясняющих р-значение. Однако эту концепцию нелегко понять без дальнейшего разъяснения.
Вот определение p-значения из Википедии:
Значение p - это вероятность получения тестовой статистики, по крайней мере, такой же экстремальной, как и та, которая фактически наблюдалась, при условии, что нулевая гипотеза верна. ( http://en.wikipedia.org/wiki/P-value )
Мой первый вопрос касается выражения «по крайней мере, такого же крайнего, как тот, который действительно наблюдался». Мое понимание логики, лежащей в основе использования p-значения, заключается в следующем: если p-значение мало, маловероятно, что наблюдение произошло в предположении нулевой гипотезы, и нам может потребоваться альтернативная гипотеза для объяснения наблюдения. Если значение p не так мало, вероятно, что наблюдение происходило только в предположении нулевой гипотезы, и альтернативная гипотеза не обязательна для объяснения наблюдения. Поэтому, если кто-то хочет настоять на гипотезе, он / она должен показать, что значение p нулевой гипотезы очень мало. Имея это в виду, мое понимание неоднозначного выражения состоит в том, что p-значение равно, если PDF статистики является унимодальным, где - тестовая статистика, а x - ее значение, полученное из наблюдения. Это правильно? Если это правильно, все еще применимо ли использование бимодального PDF статистики? Если два пика PDF хорошо разделены и наблюдаемое значение находится где-то в области низкой плотности вероятности между двумя пиками, то в каком интервале р-значение дает вероятность?х
Второй вопрос о другом определении р-значения от Wolfram MathWorld:
Вероятность того, что вариация будет принимать значение, большее или равное наблюдаемому значению, строго случайно. ( http://mathworld.wolfram.com/P-Value.html )
Я понял, что фразу «строго случайно» следует интерпретировать как «принятие нулевой гипотезы». Это правильно?
Третий вопрос касается использования «нулевой гипотезы». Давайте предположим, что кто-то хочет настаивать на том, что монета справедлива. Он высказывает гипотезу, что относительная частота голов составляет 0,5. Тогда нулевая гипотеза «относительная частота головок не 0,5». В этом случае, хотя вычисление p-значения нулевой гипотезы затруднительно, вычисление легко для альтернативной гипотезы. Конечно, проблему можно решить, поменяв роль двух гипотез. Мой вопрос заключается в том, что отклонение или принятие, основанное непосредственно на p-значении исходной альтернативной гипотезы (без введения нулевой гипотезы), заключается в том, в порядке ли это или нет. Если это не так, то как обычно обходить такие трудности при расчете p-значения нулевой гипотезы?
Я разместил новый вопрос, который более ясен на основе обсуждения в этой теме.
Ответы:
Первый ответ
Вы должны думать о концепции экстремума с точки зрения вероятности тестовой статистики, а не с точки зрения ее значения или значения тестируемой случайной величины. Я сообщаю о следующем примере от Christensen, R. (2005). Тестирование Фишера, Неймана, Пирсона и Байеса . Американский статистик , 59 (2), 121–126
Здесь - наблюдения, вторая строка - вероятность наблюдения данного наблюдения при нулевой гипотезе θ = 0 , которая используется здесь в качестве тестовой статистики, третья строка - значение p . Мы находимся здесь в рамках теста Фишера: существует одна гипотеза ( H 0 , в данном случае θ = 0 ), согласно которой мы хотим увидеть, являются ли данные странными или нет. Наблюдения с наименьшей вероятностью составляют 2 и 3 с 0,5% каждое. Если вы получите 2, например, вероятность наблюдать что-то как вероятное или менее вероятное ( r = 2 и r = 3r θ=0 p H0 θ=0 r=2 r=3 ) составляет 1%. Наблюдение не вносит вклад в значение p , хотя оно находится еще дальше (если существует отношение порядка), поскольку оно имеет более высокую вероятность наблюдения.r=4 p
Это определение работает в целом, так как оно включает как категориальные, так и многомерные переменные, где отношение порядка не определено. В случае единой количественной переменной, где вы наблюдаете некоторое отклонение от наиболее вероятного результата, возможно, имеет смысл вычислить одностороннее значение и рассмотреть только те наблюдения, которые находятся на одной стороне распределения тестовой статистики.p
Второй ответ
Я полностью не согласен с этим определением из Mathworld.
Третий ответ
Должен сказать, что я не совсем уверен, что понял ваш вопрос, но постараюсь дать несколько замечаний, которые могут вам помочь.
В простейшем контексте тестирования Фишера, когда у вас есть только нулевая гипотеза, это должно быть статус-кво . Это потому, что тестирование по Фишеру работает, по сути, по противоречию. Таким образом, в случае с монетой, если у вас нет причин думать иначе, вы бы предположили, что она справедлива, . Затем вы вычисляете значение p для ваших данных под H 0 и, если ваше значение p ниже предварительно определенного порога, вы отклоняете гипотезу (доказательство от противного). Вы никогда не вычисляете вероятность нулевой гипотезы.H0:θ=0.5 p H0 p
С помощью тестов Неймана-Пирсона вы определяете две альтернативные гипотезы и, исходя из их относительной вероятности и размерности векторов параметров, предпочитаете ту или иную. Это можно увидеть, например, при проверке гипотезы о смещенной и несмещенной монете. Беспристрастный означает фиксацию параметра на (размерность этого пространства параметров равна нулю), в то время как смещение может принимать любое значение θ ≠ 0,5 (размерность равна единице). Это решает проблему попыток противоречить гипотезе о предвзятости путем противоречия, что было бы невозможно, как объяснил другой пользователь. Фишер и Н.П. дают схожие результаты при большой выборке, но они не совсем эквивалентны. Здесь ниже простой код в R для смещенной монеты.θ=0.5 θ≠0.5
источник
(1) Статистика - это число, которое вы можете рассчитать по выборке. Он используется для того, чтобы упорядочить все образцы, которые вы могли получить (по предполагаемой модели, где монеты не попадают на их края и что у вас). Если - это то, что вы вычисляете из выборки, которую вы на самом деле получили, & T - соответствующая случайная величина, тогда p-значение задается как P r ( T ≥ t ) при нулевой гипотезе H 0 . «Больше, чем« против »более экстремально» в принципе неважно. Для двустороннего теста на нормальное среднее мы могли бы использовать P r ( | Z | ≥ | z | )t T Pr(T≥t) H0 Pr(|Z|≥|z|) но удобно использовать
потому что у нас есть соответствующие таблицы. (Обратите внимание на удвоение.)2min[Pr(Z≥z),Pr(Z≤z)]
Для статистики теста не требуется располагать выборки в порядке их вероятности при нулевой гипотезе. Есть ситуации (например , например , заг в) , где любом другом пути будет казаться извращенным (без дополнительной информации о том, что мер, какие расхождения с H 0 представляют наибольший интерес, и с.), Но используются часто и другие критерии. Таким образом, вы могли бы иметь бимодальный PDF для статистики теста и все еще тестировать H 0, используя формулу выше.r H0 H0
(2) Да, они имеют в виду под .H0
(3) Нулевая гипотеза типа «частота голов не 0,5» бесполезна, потому что вы никогда не сможете ее отвергнуть. Это составной ноль, включающий «частоту голов 0,49999999», или как можно ближе. Независимо от того, думаете ли вы заранее, что монета справедлива или нет, вы выбираете полезную нулевую гипотезу, которая имеет отношение к проблеме. Возможно, более полезным после эксперимента является вычисление доверительного интервала для частоты головок, который показывает, что это либо явно несправедливая монета, либо она достаточно близка к честной, либо вам нужно провести больше испытаний, чтобы выяснить это.
Иллюстрация для (1):
Вы, вероятно, согласитесь со мной, что первые два выглядят немного подозрительно. Все же вероятности под нулем равны:
Чтобы добраться куда угодно, вам нужно подумать, какие альтернативы нулю вы хотите проверить. Если вы готовы принять независимость каждого броска как при нулевом, так и при альтернативном (а в реальных ситуациях это часто означает очень усердную работу для обеспечения независимости экспериментальных испытаний), вы можете использовать общее количество голов в качестве статистики теста, не теряя информацию , (Разделение выборочного пространства таким способом является еще одной важной работой, которую выполняет статистика.)
Таким образом, у вас есть счет от 0 до 10
Его распределение под нулем
Возьмем отношение вероятности под нулем к вероятности под альтернативой (так называемое отношение правдоподобия):
Сравнить с
Таким образом, для этого нулевого значения, два статистических порядка порядка одинаковы. Если вы повторяете с нулевым 0,85 (т. Е. Проверяете, что долгосрочная частота головок составляет 85%), они этого не делают.
Чтобы понять почему
И это хорошо - каждый образец можно считать экстремальным с некоторой точки зрения. Вы выбираете тестовую статистику в соответствии с тем, какое несоответствие нулю вы хотите обнаружить.
Подозрительная последовательность
в то время как в другой крайности
имеютг = 1 , Используя вероятность под нулем в качестве тестовой статистики (как вам нравится), вы можете сказать, что p-значение выборки
следовательно является41024= 1256 , Что примечательно, сравнивая этот тест с предыдущим, так это то, что даже если вы строго придерживаетесь порядка, заданного вероятностью под нулем, то, как вы определяете свою статистику теста для разделения пространства выборки, зависит от рассмотрения альтернатив.
источник