Непонимание P-значения?

16

Итак, я много читал о том, как правильно интерпретировать P-значение, и из того, что я прочитал, p-значение НИЧЕГО не говорит о вероятности того, что нулевая гипотеза верна или неверна. Однако при прочтении следующего утверждения:

Значение p представляет вероятность допустить ошибку типа I или отклонить нулевую гипотезу, если она верна. Чем меньше значение p, тем меньше вероятность того, что вы ошибочно отклоните нулевую гипотезу.

РЕДАКТИРОВАТЬ: И затем 5 минут спустя я прочитал:

Неправильные интерпретации значений P очень распространены. Наиболее распространенной ошибкой является интерпретация значения P как вероятности совершения ошибки путем отклонения истинной нулевой гипотезы (ошибка типа I).

Это смутило меня. Какой из них правильный? И кто-нибудь может объяснить, как правильно интерпретировать значение p и как оно правильно соотносится с вероятностью ошибки типа I?

rb612
источник
1
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is trueЗначение p представляет априорную вероятность ошибки типа I, то есть отклонения нулевой гипотезы в предположении, что она верна.
ttnphns
4
@Paul: вероятность отклонения нулевого условия при условии, что значение null равно true, является вероятностью ошибки типа I, это не то же самое, что значение p. Вероятность ошибки типа I равна (для непрерывных случайных величин) выбранному уровню значимости, см. Также мой ответ ниже.
Да, теперь я вижу, вы абсолютно правы.
Пол
4
@fcoppens Вероятность ошибки типа I равна только предварительно выбранному уровню альфа, если вы при условии, что нулевая гипотеза верна. В безусловном случае вы не знаете, является ли значение NULL истинным или ложным, и поэтому вы можете указать вероятность ошибки типа I только в том случае, если вы указали предыдущую вероятность для истинного значения NULL.
Майкл Лью - восстановить Монику
@ Майкл Лью: Это условие на ноль упоминается в моем ответе ниже?

Ответы:

25

Из-за ваших комментариев я сделаю два отдельных раздела:

р-значение

В тестировании статистических гипотез вы можете найти «статистические доказательства» альтернативной гипотезы; Как я объяснил в разделе Что следует, если мы не сможем отвергнуть нулевую гипотезу? , это похоже на «доказательство от противного» в математике.

Поэтому, если мы хотим найти «статистическое доказательство», мы предполагаем обратное, которое мы обозначаем того, что мы пытаемся доказать, что мы называем H 1 . После этого мы рисуем образец, а из него вычисляем так называемую статистику теста (например, t-значение в t-тесте).H0H1

Затем, поскольку мы предполагаем, что истинно и что наша выборка случайным образом взята из распределения под H 0 , мы можем вычислить вероятность наблюдения значений, которые превышают или равны значению, полученному из нашей (случайной) выборки. Эта вероятность называется р-значением.H0H0

Если это значение «достаточно мало», то есть меньше, чем уровень значимости, который мы выбрали, то мы отвергаем и считаем, что H 1 «статистически доказано».H0H1

В этом способе важно несколько вещей:

  • мы получили вероятности в предположении, что верноH0
  • мы взяли случайную выборку из искажения, которое предполагалось при H0
  • мы решили найти доказательства для если тест-статистика, полученная из случайной выборки, имеет низкую вероятность превышения. Поэтому не исключено, что оно превышено, пока H 0 истинно, и в этих случаях мы делаем ошибку типа I. H1H0

Итак, что же такое ошибка типа I: ошибка типа I возникает, когда выборка, случайным образом взятая из , приводит к выводу, что H 0 является ложным, тогда как в действительности оно истинно.H0H0

Обратите внимание , что это означает , что р-значение не вероятность ошибки типа I . Действительно, ошибка типа I - это неправильное решение теста, и решение может быть принято только путем сравнения p-значения с выбранным уровнем значимости, с одним только p-значением решение не может быть принято, это только после сравнения p-значение для выбранного уровня значимости, по которому принимается решение , и пока решение не принято, ошибка типа I даже не определяется.

Что тогда является p-значением? Потенциально неправильное отклонение связано с тем, что мы рисуем случайную выборку под H 0 , поэтому может случиться так, что у нас будет «неудача» при рисовании выборки, и эта «неудача» приведет ложное отклонение H 0 . Таким образом, значение p (хотя это не совсем правильно) больше похоже на вероятность получения «плохой выборки». Правильная интерпретация значения p состоит в том, что это вероятность того, что тестовая статистика превышает или равна значению тестовой статистики, полученной из случайно выбранной выборки при H 0H0H0H0H0


Скорость ложного обнаружения (FDR)

Как объяснено выше, каждый раз, когда нулевая гипотеза отклоняется, каждый рассматривает это как «статистическое доказательство» для . Итак, мы нашли новое научное знание, поэтому оно называется открытием . Выше также объясняется, что мы можем делать ложные открытия (то есть ложно отвергать H 0 ), когда совершаем ошибку типа I. В этом случае у нас ложное убеждение в научной истине. Мы только хотим обнаружить действительно правдивые вещи, и поэтому стараемся свести к минимуму ложные открытия, то есть каждый будет контролировать ошибку типа I. Нетрудно понять, что вероятность ошибки типа I является выбранным уровнем значимости α . Поэтому для того , чтобы контролировать наличие ошибок I типа, один фиксирует альфаH1H0ααуровень, отражающий вашу готовность принять «ложное доказательство».

Интуитивно понятно, что это означает, что если мы рисуем огромное количество образцов, и с каждым образцом мы проводим тест, то доля этих тестов приведет к неверному выводу. Важно отметить, что мы «усредняем по многим выборкам» ; так же тест, много образцов. α

α

FDDH0

Таким образом, вероятность ошибки типа I связана с выполнением одного и того же теста на разных образцах. Для огромного количества выборок вероятность ошибки типа I будет сходиться к количеству выборок, ведущих к ложному отклонению, деленному на общее количество взятых выборок .

H0

Обратите внимание, что, сравнивая два абзаца выше:

  1. Контекст другой; один тест и много образцов против многих тестов и один образец.
  2. Знаменатель для вычисления вероятности ошибки типа I явно отличается от знаменателя для вычисления FDR. Числители в некотором роде похожи, но имеют другой контекст.

H00,38×1000

Greenstick
источник
5
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0Это так? Разве это не «равно или превышает»? P-значение - это вероятность того, что при истинном значении H0 мы наблюдаем разницу или связь, равную или превышающую реально наблюдаемую.
ttnphns
@ttnphns Для непрерывной статистики теста нет разницы, потому что мера точки равна нулю. Для дискретной тестовой статистики вы правы (+1). Я изменил текст соответственно.
1
Вы проводите очень полезное различие между P-значениями и частотой появления ошибок типа I, но я думаю, что вам нужно быть более осторожным со словом «доказано». На мой взгляд, добавление модификатора «статистически» не достаточно смягчает его.
Майкл Лью - восстановить Монику
1
Вы имели дело с доказательством так, как будто оно имеет только двоичное состояние: существует и не существует. В стандартном понимании нестатистических доказательств понятие слова имеет поэтапное существование, и оно сложнее, чем одно измерение силы может охватить. Трудность возникает из-за несовместимости соображений о частоте ошибок с обычными интерпретациями доказательств. Мне было бы очень интересно прочитать любой отчет, который фиксирует недвоичное толкование «доказательств» в рамках FDR. (Я еще не видел.)
Майкл Лью - восстановите Монику
1
Спасибо за исправление. Я внес соответствующие изменения вчера вечером и зачислил на ваш пост.
Антони Пареллада
4

Первое утверждение не совсем верно.

Из изящной статьи о недопонимании значимости: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )

«[Это утверждение] может выглядеть аналогично определению ошибки типа I (т. Е. Вероятности отклонения H0, хотя на самом деле оно истинно), но фактически отклонив H0, это решение будет неверным, если и только если H0 были верны. Таким образом, вероятность того, что вы принимаете неправильное решение, равна p (H0), и эта вероятность ... не может быть получена с помощью проверки значимости нулевой гипотезы. "

Проще говоря, для оценки вероятности того, что вы неправильно отклонили H0, вам требуется вероятность того, что H0 истинно, которую вы просто не можете получить с помощью этого теста.

Генри Б
источник
Спасибо! Поэтому, когда я читаю первую часть statisticsdonewrong.com/p-value.html , автор приходит к выводу, что FDR составляет 38%, поэтому вероятность ошибки типа I составляет 38%?
rb612
FDR - это показатель ложного обнаружения, и он сильно отличается от ошибки типа I, поэтому ответа на ваш вопрос нет. FDR связан с несколькими тестами, т . Е. Когда вы выполняете несколько тестов на одном и том же образце, см. Stats.stackexchange.com/questions/164181/… . FDR является альтернативой Familywise Error Rate, но для объяснения того, что количество символов в комментарии слишком ограничено.
Я добавил второй раздел в своем ответе для объяснения FDR.
1
Так же, как невозможно определить вероятность истинности H0 без предварительного, невозможно определить FDR без предварительного. Будьте осторожны в том, как вы интерпретируете документы FDR, потому что используемые в них априоры могут не обязательно соответствовать вашим экспериментальным обстоятельствам.
Майкл Лью - восстановить Монику
1

Правильная интерпретация p-значения - это условная вероятность исхода, по крайней мере, столь же благоприятная для альтернативной гипотезы, как наблюдаемое значение (по крайней мере, как «крайняя»), предполагая, что нулевая гипотеза верна . Неправильные интерпретации обычно включают в себя либо предельную вероятность, либо изменение условия:

p-value=P(At least as extreme as observed outcome|H0)P(Type I error).
Восстановить Монику
источник
-1

Значение p позволяет нам определить, может ли нулевая гипотеза (или заявленная гипотеза) быть отклонена или нет. Если значение p меньше уровня значимости, α, то это представляет статистически значимый результат, и нулевая гипотеза должна быть отклонена. Если значение p больше уровня значимости, α, нулевая гипотеза не может быть отклонена. Это и есть причина поиска значения p, если вы используете таблицу или онлайн-калькулятор, например калькулятор значения p , чтобы найти значение p в статистике теста.

Теперь я знаю, что вы упомянули ошибки типа I и типа II. Это действительно не имеет ничего общего с p-значением. Это связано с исходными данными, такими как размер выборки и значения, полученные для данных. Например, если размер выборки слишком мал, это может привести к ошибке типа I.

user1445657
источник
2
-1. Я извиняюсь за то, что приветствую вас на нашем сайте с отрицательным голосом, но этот ответ явно неверен: это просто не тот случай, когда значение p является вероятностью истинности нулевой гипотезы. Это широко обсуждается во многих потоках о p-значениях и проверках гипотез, таких как stats.stackexchange.com/questions/31 .
whuber
1
Я немного изменил исходный ответ, чтобы сделать его более точным.
user1445657