Являются ли меньшие p-значения более убедительными?

31

Я читал о , коэффициентах ошибок типа 1, уровнях значимости, расчетах мощности, размерах эффектов и дебатах Фишера против Неймана-Пирсона. Это заставило меня чувствовать себя немного ошеломленным. Я прошу прощения за стену текста, но я чувствовал, что необходимо дать обзор моего текущего понимания этих концепций, прежде чем я перейду к своим актуальным вопросам.p


Из того, что я понял, значение - это просто мера неожиданности, вероятность получения результата, по крайней мере, экстремального, учитывая, что нулевая гипотеза верна. Первоначально Фишер намеревался сделать это непрерывной мерой.p

В структуре Неймана-Пирсона вы заранее выбираете уровень значимости и используете его как (произвольную) точку отсечения. Уровень значимости равен частоте ошибок типа 1. Он определяется длительной частотой, то есть, если вы будете повторять эксперимент 1000 раз, и нулевая гипотеза верна, около 50 из этих экспериментов приведут к значительному эффекту из-за изменчивости выборки. Выбирая уровень значимости, мы защищаем себя от ложных срабатываний с определенной вероятностью. традиционно не фигурируют в этих рамках.P

Если мы находим значение 0,01, это не означает, что коэффициент ошибок типа 1 равен 0,01, ошибка типа 1 устанавливается априори. Я полагаю, что это один из главных аргументов в дебатах Фишера против NP, потому что p- значения часто сообщаются как 0,05 *, 0,01 **, 0,001 ***. Это может ввести в заблуждение людей, говоря, что эффект является значительным при определенном значении p , а не при определенном значении значимости.ppp

Я также понимаю, что значение является функцией размера выборки. Поэтому его нельзя использовать как абсолютное измерение. Небольшое p- значение может указывать на небольшой, не относящийся к делу эффект в эксперименте с большой выборкой. Чтобы противостоять этому, важно выполнить расчет мощности / эффекта при определении размера выборки для вашего эксперимента. P-значения говорят нам, есть ли эффект, а не насколько он велик. См Салливан 2012 .ppP

Мой вопрос: как я могу примирить факты о том, что значение является мерой неожиданности (меньше = более убедительно), и в то же время его нельзя рассматривать как абсолютное измерение?p

Что меня смущает, так это следующее: можем ли мы быть более уверенными в маленьком значении, чем в большом? В фишерском смысле я бы сказал, да, мы более удивлены. В рамках НП, выбор меньшего уровня значимости означал бы, что мы сильнее защищаемся от ложных срабатываний.p

Но с другой стороны, значения зависят от размера выборки. Они не являются абсолютной мерой. Таким образом, мы не можем просто сказать, что 0,001593 более значимо, чем 0,0439. И все же это то, что подразумевается в рамках Фишера: мы были бы более удивлены такой экстремальной ценности. Существует даже дискуссия о том, что термин « очень значительный» является неправильным: неправильно ли называть результаты «очень значительными»?p

Я слышал, что в некоторых областях науки считаются важными только тогда, когда они меньше 0,0001, тогда как в других областях значения около 0,01 уже считаются очень значимыми.p

Смежные вопросы:

Зенит
источник
Также не забывайте, что «значимое» значение p ничего не говорит вам о вашей теории. Это признают даже самые ярые защитники: Точность статистической значимости: обоснование, обоснованность и полезность. Сиу Л. Чоу. ПОВЕДЕНЧЕСКИЕ И МОЗГОВЫЕ НАУКИ (1998) 21, 169–239 Данные интерпретируются, когда превращаются в доказательства. Предположения, на которых основана интерпретация, должны быть перечислены, а затем, если возможно, проверены. Что измеряется?
Живое
2
+1, но я бы посоветовал вам сфокусировать вопрос и убрать побочные вопросы. Если вам интересно, почему некоторые люди утверждают, что доверительные интервалы лучше, чем p-значения, задайте отдельный вопрос (но убедитесь, что он не задавался раньше).
говорит амеба: восстанови Монику
3
Кроме того, как ваш вопрос не является дубликатом Почему более низкие значения р не являются более убедительным доказательством против нуля? Вы видели эту ветку? Возможно, вы сможете добавить его в список в конце вашего поста. Смотрите также похожий вопрос. Какой смысл сравнивать p-значения друг с другом? , но я неохотно рекомендую эту ветку, потому что принятый ответ там ИМХО неверен / вводит в заблуждение (см. обсуждение в комментариях).
говорит амеба, восстанови Монику
2
Гельман может многое сказать о p-значениях. например, 1. здесь (Gelman and Stern, Am.Stat. 2006 pdf) , 2. здесь, в своем блоге , 3. снова в своем блоге и, возможно, также 4. здесь (Gelman, 2013 опубликовал комментарий к другой статье, pdf)
Glen_b - Восстановите Монику
2
Спасибо за ссылки, @Glen_b; Я хорошо знаю газету Gelman & Stern и часто сам на нее ссылаюсь, но раньше не видел ни этой статьи 2013 года, ни ее обсуждения. Тем не менее, я хотел бы предостеречь OP от интерпретации Gelman & Stern в контексте его / ее вопроса. G & S предлагает хороший пример с двумя исследованиями, оценивающими эффект как и 10 ± 10 ; в одном случае p < 0,01 , в другом p > 0,05 , но разница между оценками незначительна. Это важно иметь в виду, но если сейчас, после ОП, мы спросим, ​​является ли первое исследование более убедительным, я бы, конечно, сказал «да». 25±1010±10p<0.01p>0.05
Амеба говорит Восстановить Монику

Ответы:

18

Являются ли меньшие более убедительными? Да, конечно.p

В рамках Фишера значение - это количественная оценка количества доказательств против нулевой гипотезы. Доказательства могут быть более или менее убедительными; чем меньше значение p , тем убедительнее оно. Обратите внимание, что в любом данном эксперименте с фиксированным размером выборки n значение p монотонно связано с величиной эффекта, как @Scortchi хорошо указывает в своем ответе (+1). Таким образом, меньшие p-значения соответствуют большим величинам эффекта; конечно они более убедительны!ppnpp

В рамках модели Неймана-Пирсона цель состоит в том, чтобы получить бинарное решение: либо доказательства являются «значительными», либо нет. Выбирая порог , мы гарантируем, что у нас будет не более α ложных срабатываний. Обратите внимание, что разные люди могут иметь разные α при взгляде на одни и те же данные; возможно, когда я читаю статью из области, к которой я отношусь скептически, я лично не считаю «значительными» результаты, например, с p = 0,03, даже если авторы называют их значительными. Мой личный α может быть установлен на 0,001 или что-то еще. Очевидно, чем ниже сообщаемое рαααp=0.03α0.001p-значение, тем более скептически настроенных читателей это сможет убедить! Следовательно, более низкие значения более убедительны.p

В настоящее время стандартной практикой является объединение подходов Фишера и Неймана-Пирсона: если , то результаты называются «значимыми», а значение p сообщается [точно или приблизительно] и используется как мера убедительности (отмечая его со звездами, используя выражения как «очень значимые» и т. д.); если p > α , то результаты называются «несущественными» и все.p<αpp>α

Это обычно называют «гибридным подходом», и действительно это гибрид. Некоторые люди утверждают, что этот гибрид бессвязен; Я склонен не соглашаться Почему нельзя делать две правильные вещи одновременно?

Дальнейшее чтение:

амеба говорит восстановить монику
источник
1
(+1) Но см. Раздел 4.4 статьи Майкла Лью: некоторые предпочли бы приравнять количество доказательств с вероятностью, а не с p-значением, что имеет значение при сравнении p-значений в экспериментах с различными пространствами выборки. Таким образом, они говорят об «индексации» или «калибровке» доказательств / вероятности.
Scortchi - Восстановить Монику
Извините, я хотел сказать, точнее, что, с этой точки зрения, относительное «свидетельство» (или «поддержка») для различных значений, которые может принимать параметр, представляет собой отношение их функций правдоподобия, оцененных для наблюдаемых данных. Таким образом, в примере Лью, одна голова из шести бросков является тем же доказательством против нулевой гипотезы, независимо от того, является ли схема выборки биномиальной или отрицательной биномиальной; все же p-значения различаются - вы могли бы сказать, что при одной схеме выборки у вас было меньше шансов собрать столько доказательств против нуля. (Конечно, права на слово «доказательства», как и на «значительный», ...
Scortchi - Восстановить Монику
... еще не был твердо установлен.)
Scortchi - Восстановить Монику
Хм, большое спасибо за то, что привлекли мое внимание к этому разделу; Я читал это раньше, но, видимо, упустил его важность. Сразу скажу, что в данный момент меня это смущает. Лью пишет, что p-значения не следует «корректировать», принимая во внимание правила остановки; но я не вижу никаких корректировок в его формулах 5-6. Какими будут «нескорректированные» p-значения?
говорит амеба, восстанови Монику
1
@ Scortchi: Хммм. Я действительно не понимаю, почему одно из этих p-значений «скорректировано», а другое нет; почему не наоборот? Я совсем не убежден аргументом Лью здесь, и я даже не до конца понимаю его. Размышляя об этом, я нашел вопрос Лью от 2012 года о принципе вероятности и р-значениях и разместил там ответ. Дело в том, что для получения разных значений p не нужны разные правила остановки; Можно просто рассмотреть различные статистические данные теста. Возможно, мы сможем продолжить обсуждение там, я был бы признателен за ваш вклад.
говорит амеба: восстанови Монику
9

Я не знаю, что имеется в виду, когда меньшие p-значения «лучше» или что мы «более уверены в них». Но если рассматривать р-значения как меру того, насколько мы удивлены данными, если мы верили, что нулевая гипотеза кажется достаточно разумной; значение p является монотонной функцией выбранной вами статистики тестачтобы измерить расхождение с нулевой гипотезой в интересующем вас направлении, откалибровать ее относительно ее свойств в соответствии с соответствующей процедурой отбора проб из популяции или случайного назначения экспериментальных обработок. «Значение» стало техническим термином для обозначения p-значений, которые находятся выше или ниже некоторого определенного значения; таким образом, даже те, кто не интересуется указанием уровней значимости и принятием или отклонением гипотез, имеют тенденцию избегать таких фраз, как «очень значимые» - просто соблюдение соглашения.

Что касается зависимости значений p от размера выборки и размера эффекта, возможно, возникает некоторая путаница, потому что, например, может показаться, что 474 головы из 1000 бросков должны быть менее удивительными, чем 2 из 10 для того, кто считает монету честной - в конце концов доля выборки только немного отклоняется от 50% в первом случае, но значения p примерно одинаковы. Но правда или ложь не допускают степеней; р-значение делает то, что от него требуется: часто доверительные интервалы для параметра - это действительно то, что нужно для оценки точности измерения эффекта, а также практической или теоретической важности его оценочной величины.

Scortchi - Восстановить Монику
источник
1
p=0.04p=0.000004
1

Спасибо за комментарии и предложенные чтения. У меня было еще немного времени, чтобы обдумать эту проблему, и я считаю, что мне удалось изолировать свои основные источники путаницы.

  • Сначала я думал, что существует дихотомия между просмотром p-значения как меры неожиданности и утверждением, что это не абсолютная мера. Теперь я понимаю, что эти утверждения не обязательно противоречат друг другу. Первое позволяет нам быть более или менее уверенным в экстремальности (даже в сходстве?) Наблюдаемого эффекта по сравнению с другими гипотетическими результатами того же эксперимента. Принимая во внимание, что последний только говорит нам, что то, что можно считать убедительным p-значением в одном эксперименте, может совсем не быть впечатляющим в другом, например, если размеры выборки различаются.

  • Тот факт, что в некоторых областях науки используется другая базовая линия сильных р-значений, может быть либо отражением различия в общих размерах выборки (астрономия, клинические, психологические эксперименты) и / или попыткой передать величину эффекта в р- ценность. Но последнее является неправильным слиянием двух.

  • Значение - это вопрос да / нет, основанный на альфа, который был выбран до эксперимента. Следовательно, значение p не может быть более значимым, чем другое, так как оно меньше или больше выбранного уровня значимости. С другой стороны, меньшее значение p будет более убедительным, чем большее (для аналогичного размера выборки / идентичного эксперимента, как упоминалось в моем первом пункте).

  • Доверительные интервалы по своей сути передают величину эффекта, что делает их хорошим выбором для защиты от проблем, упомянутых выше.

Зенит
источник
0

Значение p не может быть мерой неожиданности, потому что это всего лишь мера вероятности, когда ноль истинен. Если значение равно нулю, то каждое возможное значение p одинаково вероятно. Нельзя удивляться никакому p-значению, прежде чем принять решение отклонить нуль. Как только кто-то решает, что есть эффект, значение p-значения исчезает. Кто-то просто сообщает об этом как о звене в относительно слабой индуктивной цепочке, чтобы оправдать отрицание или нет нулевого значения. Но если это было отклонено, это фактически больше не имеет никакого значения.

Джон
источник
+1 за тот факт, что «когда ноль истинен, то каждое значение p одинаково вероятно», однако, я думаю, что это справедливо только для непрерывных случайных величин?
Обратите внимание, что я сказал, что каждое «возможное» значение p одинаково вероятно. Так что это верно для дискретных или непрерывных переменных. С дискретными переменными число возможных значений меньше.
Джон
Вы уверены, что распределение р-значений (под ЧАС0) всегда одинаков для дискретных переменных, потому что эта ссылка, кажется, говорит о чем-то другом: stats.stackexchange.com/questions/153249/…
Я считаю, что ведущий ответ демонстрирует, что это не проблема. Причина, по которой распределение выглядит неравномерно, заключается в том, что возможные значения p расположены неравномерно. Гленн даже называет это квазиоднородным. Я предполагаю, что возможно, что с некоторыми очень разреженными тестами биномиальных данных с маленькими N, тогда вероятность определенных значений p будет неравной, но если вы рассмотрите вероятность значений p в данном диапазоне, она будет ближе к однородной.
Джон
1
@amoeba: допустим, что в t-тесте вы упоминаете тесты ЧАС0:μзнак равно0,5 и вы получите пзнак равно0,0000000004, Может быть, с тем же образцом, который вы тестируетеЧАС0:μзнак равно0,45 и вы получите пзнак равно0,0000000001Не могли бы вы сказать, что есть больше доказательств μзнак равно0,45?