Интерпретация p-значения в проверке гипотез

36

Недавно я наткнулся на статью «Незначительное тестирование значимости нулевой гипотезы», Джефф Гилл (1999) . Автор высказал несколько распространенных заблуждений относительно проверки гипотез и р-значений, по поводу которых у меня есть два конкретных вопроса:

  1. Технически это p-значение , которое, как указано в статье, обычно ничего не говорит нам о , если только мы не знаем предельных распределений, что редко бывает при «повседневной» проверке гипотез. Когда мы получаем небольшое значение p и «отвергаем нулевую гипотезу», каково именно то вероятностное утверждение, которое мы делаем, поскольку мы ничего не можем сказать о ?P(observation|H0)P(H0|observation)P(H0|observation)
  2. Второй вопрос относится к конкретному утверждению со страницы 6 (652) статьи:

Поскольку значение p или диапазон значений p, обозначенных звездочками, не установлены априори, это не долгосрочная вероятность ошибки типа I, а обычно рассматривается как таковая.

Может кто-нибудь помочь объяснить, что подразумевается под этим утверждением?

Gung - Восстановить Монику
источник
TY для ссылки на статью
Людовик Куты
@ezbentley: может быть, интересно ответить на мой ответ: stats.stackexchange.com/questions/166323/…

Ответы:

33

(Технически, P-значение - это вероятность наблюдения данных, по крайней мере, настолько экстремальных, насколько это реально наблюдалось, учитывая нулевую гипотезу.)

Q1. Решение отклонить нулевую гипотезу на основе малого значения P обычно зависит от «дизъюнкции Фишера»: либо произошло редкое событие, либо нулевая гипотеза является ложной. Фактически, редкость события - это то, что говорит вам P-значение, а не вероятность того, что ноль будет ложным.

Вероятность того, что ноль является ложным, может быть получена из экспериментальных данных только с помощью теоремы Байеса, которая требует уточнения «предыдущей» вероятности нулевой гипотезы (предположительно то, что Гилл называет «предельными распределениями»).

Q2. Эта часть вашего вопроса гораздо сложнее, чем может показаться. Существует большая путаница в отношении P-значений и частоты ошибок, которые, по-видимому, то, что Гилл имеет в виду, «но обычно рассматривается как таковой». Комбинация фишеровских P-значений с частотой ошибок Неймана-Пирсона была названа бессвязной ошибкой, и, к сожалению, она очень широко распространена. Краткий ответ здесь не будет полностью адекватным, но я могу указать вам пару хороших статей (да, одна моя). И то, и другое поможет вам разобраться в работе Gill.

Hurlbert S. & Lombardi C. (2009). Окончательный крах теоретической основы решения Неймана-Пирсона и рост неофишерианства. Annales Zoologici Fennici, 46 (5), 311–349. (Ссылка на статью)

Лью, MJ (2012). Плохая статистическая практика в фармакологии (и других основных биомедицинских дисциплинах): вы, вероятно, не знаете P. British Journal of Pharmacology, 166 (5), 1559–1567. doi: 10.1111 / j.1476-5381.2012.01931.x (ссылка на статью)

Майкл Лью
источник
Благодарю за разъяснение. Это технически некорректно делать такие заявления, как "the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"? Источник путаницы, кажется, состоит в том, что никакое реальное вероятностное утверждение не делается для нулевой гипотезы, когда мы говорим, что нулевое значение «отклонено».
2
@ezbentley, это действительно зависит от того, что вы подразумеваете под значительным. Это слово на самом деле не имеет особого смысла в большинстве случаев, потому что оно загрязнено гибридом Фишера-Неймана-Пирсона. Если вы получили очень маленькое значение P, то было бы справедливо сказать, что истинное среднее значение, вероятно, не равно нулю, но важно сказать, каким было наблюдаемое среднее значение, и указать его изменчивость (SEM или доверительный интервал), и не не забудьте сказать, какой был размер выборки. Значение P не является заменой для определения величины наблюдаемого эффекта.
Майкл Лью
Спасибо за объяснение. Мне нужно углубиться в парадигму Фишера и Неймана-Пирсона.
@ Майкл Лью: Может быть, было бы интересно взглянуть на мой ответ: stats.stackexchange.com/questions/166323/…
Ваш параграф под Q1, вероятно, является лучшим объяснением проблемы, которую я видел до сих пор. Спасибо.
Maxim.K
22

+1 к @MichaelLew, который дал вам хороший ответ. Возможно, я все еще могу внести свой вклад, предоставив способ мышления о Q2. Рассмотрим следующую ситуацию:

  • Нулевая гипотеза верна. (Обратите внимание, что если нулевая гипотеза не верна, ошибки типа I невозможны, и неясно, какое значение имеет значение .) p
  • α был установлен условно на . 0.05
  • Вычисленное значение составляет . p0.01

Теперь вероятность получить данные как экстремальные или более экстремальные, чем ваши данные, составляет 1% (это то, что означает значение ). Вы отвергли нулевую гипотезу, что делает ошибки типа I . Правда ли, что долгосрочная частота ошибок типа I в этой ситуации также составляет 1%, что многие люди могут интуитивно прийти к выводу? Ответ - нет . Причина в том, что если бы вы получили значение , вы бы все равно отклонили ноль . На самом деле, вы бы отклонили ноль, даже если бы было , и в долгосрочной перспективе, до этого большого значения произойдетpp0.02p0.049¯p5% времени и все такие отклонения будут ошибками типа I. Таким образом, коэффициент ошибок типа I в долгосрочной перспективе составляет 5% (там, где вы установили ). α

(Раскрытие информации: я не читал статью Джилла, поэтому не могу гарантировать, что это именно то, что он имел в виду, но имеет смысл утверждение о том, что значение [обязательно] не равно частоте ошибок типа I в долгосрочной перспективе. )p

Gung - Восстановить Монику
источник
1
Работая в области (epi), где часто чрезвычайно трудно поверить, что гипотеза H_0 = 0 действительно верна, я думаю, что этот момент упускается из виду и заслуживает гораздо большего внимания.
Боскович
1
Просто чтобы убедиться, что мое понимание верно. Само значение P является случайной величиной, а ошибка типа I - вероятность того, что эта случайная величина меньше . Это правильно? α
1
+1, но предположение о том, что значение P-значения неясно, когда значение null равно false, вводит в заблуждение. Чем меньше значение P, тем больше расхождение между нулем и наблюдаемым. Чем больше размер выборки, тем ближе можно предположить, что истинный размер эффекта соответствует наблюдаемому размеру эффекта. Очень полезно отметить, что проверка значимости аналогична оценке.
Майкл Лью
3
@MichaelLew, я не уверен, что значение p означает эти вещи само по себе. В сочетании w / N (и, в частности, удерживая N постоянным), меньшее p будет соответствовать большему несоответствию b / t нулевому & наблюдаемому. Даже тогда, это больше из того, что может быть выведено из p, а не что-то p означает . Также верно, что w / больший N наблюдаемых размеров эффекта должны быть ближе к истинным ES, но мне менее ясно, какую роль p играет там. Например, с ложным нулем, истинный эффект все еще может быть очень маленьким, и при большом N мы ожидаем, что наблюдаемый ES будет близок, но p все еще может быть большим.
gung - Восстановить Монику
1
@gung, я читаю эту статью Хаббарда <ftp.stat.duke.edu/WorkingPapers/03-26.pdf>. На странице 12 он заявляет, что ...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"я думал, что ошибка типа I - это именно та вероятность, что значение p меньше, чем если значение равно нулю. Так почему же Хаббард говорит, что цитируемое утверждение является ошибкой? Я как-то неправильно это понимаю? α
8

Я хотел бы сделать комментарий, относящийся к «незначительности проверки значимости нулевой гипотезы», но который не отвечает на вопрос ОП.

На мой взгляд, главная проблема не в неправильном истолковании значения. Например, многие практики часто проверяют «значительную разницу», и они ошибочно полагают, что значительная разница означает, что существует «большая» разница. Точнее, они находятся в контексте «точной» нулевой гипотезы имеющей форму . Эта гипотеза будет отвергнута, когда даже для очень маленького когда размер выборки увеличивается. Но в реальном мире нет разницы между маленьким и (мы говорим, что есть эквивалент между маленьким и 0pH0H0:{θ=0}θ=ϵϵϵ0ϵ0 и проверка эквивалентности - путь в такой ситуации).

Стефан Лоран
источник
3
+1 Да, реальная проблема с традиционным тестированием гипотез состоит в том, что он отвечает на вопрос, на который вы на самом деле не заинтересованы в ответе, то есть «есть ли существенные доказательства различия?», А не «есть ли доказательства существенного различия? ». Конечно, что действительно желательно, так это, как правило, «какова вероятность того, что моя исследовательская гипотеза верна?», Но это не может быть решено в рамках теории частоты. Неправильное истолкование, как правило, возникает из-за попыток трактовать критерий частоты в байесовских терминах.
Дикран Marsupial
1
Не следует разделять значение P-значений и размер выборки. Меньшее значение P указывает на больший размер эффекта при любом конкретном размере выборки, а для любого конкретного значения P больший размер образца указывает на то, что истинный размер эффекта, вероятно, ближе к наблюдаемому размеру эффекта. Критерии значимости следует рассматривать в контексте оценки, а не ошибок. Большая выборка всегда дает больше информации - как ее интерпретировать, зависит от экспериментатора. Жалоба из-за незначительного эффекта незначительного эффекта является проблемой только для проверки гипотезы Неймана-Пирсона.
Майкл Лью