Являются ли меньшие p-значения более убедительными?

31

Я читал о , коэффициентах ошибок типа 1, уровнях значимости, расчетах мощности, размерах эффектов и дебатах Фишера против Неймана-Пирсона. Это заставило меня чувствовать себя немного ошеломленным. Я прошу прощения за стену текста, но я чувствовал, что необходимо дать обзор моего текущего понимания этих концепций, прежде чем я перейду к своим актуальным вопросам. $p$

Из того, что я понял, значение - это просто мера неожиданности, вероятность получения результата, по крайней мере, экстремального, учитывая, что нулевая гипотеза верна. Первоначально Фишер намеревался сделать это непрерывной мерой. $p$

В структуре Неймана-Пирсона вы заранее выбираете уровень значимости и используете его как (произвольную) точку отсечения. Уровень значимости равен частоте ошибок типа 1. Он определяется длительной частотой, то есть, если вы будете повторять эксперимент 1000 раз, и нулевая гипотеза верна, около 50 из этих экспериментов приведут к значительному эффекту из-за изменчивости выборки. Выбирая уровень значимости, мы защищаем себя от ложных срабатываний с определенной вероятностью. традиционно не фигурируют в этих рамках. $P$

Если мы находим значение 0,01, это не означает, что коэффициент ошибок типа 1 равен 0,01, ошибка типа 1 устанавливается априори. Я полагаю, что это один из главных аргументов в дебатах Фишера против NP, потому что значения часто сообщаются как 0,05 *, 0,01 **, 0,001 ***. Это может ввести в заблуждение людей, говоря, что эффект является значительным при определенном значении , а не при определенном значении значимости. $p$ $p$ $p$

Я также понимаю, что значение является функцией размера выборки. Поэтому его нельзя использовать как абсолютное измерение. Небольшое значение может указывать на небольшой, не относящийся к делу эффект в эксперименте с большой выборкой. Чтобы противостоять этому, важно выполнить расчет мощности / эффекта при определении размера выборки для вашего эксперимента. говорят нам, есть ли эффект, а не насколько он велик. См Салливан 2012 . $p$ $p$ $P$

Мой вопрос: как я могу примирить факты о том, что значение является мерой неожиданности (меньше = более убедительно), и в то же время его нельзя рассматривать как абсолютное измерение? $p$

Что меня смущает, так это следующее: можем ли мы быть более уверенными в маленьком значении, чем в большом? В фишерском смысле я бы сказал, да, мы более удивлены. В рамках НП, выбор меньшего уровня значимости означал бы, что мы сильнее защищаемся от ложных срабатываний. $p$

Но с другой стороны, значения зависят от размера выборки. Они не являются абсолютной мерой. Таким образом, мы не можем просто сказать, что 0,001593 более значимо, чем 0,0439. И все же это то, что подразумевается в рамках Фишера: мы были бы более удивлены такой экстремальной ценности. Существует даже дискуссия о том, что термин « очень значительный» является неправильным: неправильно ли называть результаты «очень значительными»? $p$

Я слышал, что в некоторых областях науки считаются важными только тогда, когда они меньше 0,0001, тогда как в других областях значения около 0,01 уже считаются очень значимыми. $p$

Смежные вопросы:

hypothesis-testing statistical-significance confidence-interval p-value effect-size Зенит
источник

Также не забывайте, что «значимое» значение p ничего не говорит вам о вашей теории. Это признают даже самые ярые защитники: Точность статистической значимости: обоснование, обоснованность и полезность. Сиу Л. Чоу. ПОВЕДЕНЧЕСКИЕ И МОЗГОВЫЕ НАУКИ (1998) 21, 169–239 Данные интерпретируются, когда превращаются в доказательства. Предположения, на которых основана интерпретация, должны быть перечислены, а затем, если возможно, проверены. Что измеряется?

Живое

2

+1, но я бы посоветовал вам сфокусировать вопрос и убрать побочные вопросы. Если вам интересно, почему некоторые люди утверждают, что доверительные интервалы лучше, чем p-значения, задайте отдельный вопрос (но убедитесь, что он не задавался раньше).

говорит амеба: восстанови Монику

3

Кроме того, как ваш вопрос не является дубликатом Почему более низкие значения р не являются более убедительным доказательством против нуля? Вы видели эту ветку? Возможно, вы сможете добавить его в список в конце вашего поста. Смотрите также похожий вопрос. Какой смысл сравнивать p-значения друг с другом? , но я неохотно рекомендую эту ветку, потому что принятый ответ там ИМХО неверен / вводит в заблуждение (см. обсуждение в комментариях).

говорит амеба, восстанови Монику

2

Гельман может многое сказать о p-значениях. например, 1. здесь (Gelman and Stern, Am.Stat. 2006 pdf) , 2. здесь, в своем блоге , 3. снова в своем блоге и, возможно, также 4. здесь (Gelman, 2013 опубликовал комментарий к другой статье, pdf)

Glen_b - Восстановите Монику

2

Спасибо за ссылки, @Glen_b; Я хорошо знаю газету Gelman & Stern и часто сам на нее ссылаюсь, но раньше не видел ни этой статьи 2013 года, ни ее обсуждения. Тем не менее, я хотел бы предостеречь OP от интерпретации Gelman & Stern в контексте его / ее вопроса. G & S предлагает хороший пример с двумя исследованиями, оценивающими эффект как

и

; в одном случае

, в другом

, но разница между оценками незначительна. Это важно иметь в виду, но если сейчас, после ОП, мы спросим, является ли первое исследование более убедительным, я бы, конечно, сказал «да».

25 \pm 10

$25\pm 10$

10 \pm 10

$10\pm 10$

p < 0.01

$p<0.01$

p > 0.05

$p>0.05$

Амеба говорит Восстановить Монику

18

Являются ли меньшие более убедительными? Да, конечно. $p$

В рамках Фишера значение - это количественная оценка количества доказательств против нулевой гипотезы. Доказательства могут быть более или менее убедительными; чем меньше значение , тем убедительнее оно. Обратите внимание, что в любом данном эксперименте с фиксированным размером выборки значение монотонно связано с величиной эффекта, как @Scortchi хорошо указывает в своем ответе (+1). Таким образом, меньшие соответствуют большим величинам эффекта; конечно они более убедительны! $p$ $p$ $n$ $p$ $p$

В рамках модели Неймана-Пирсона цель состоит в том, чтобы получить бинарное решение: либо доказательства являются «значительными», либо нет. Выбирая порог , мы гарантируем, что у нас будет не более ложных срабатываний. Обратите внимание, что разные люди могут иметь разные при взгляде на одни и те же данные; возможно, когда я читаю статью из области, к которой я отношусь скептически, я лично не считаю «значительными» результаты, например, даже если авторы называют их значительными. Мой личный может быть установлен на или что-то еще. Очевидно, чем ниже сообщаемое $\alpha$ $\alpha$ $\alpha$ $p=0.03$ $\alpha$ $0.001$ $p$ -значение, тем более скептически настроенных читателей это сможет убедить! Следовательно, более низкие значения более убедительны. $p$

В настоящее время стандартной практикой является объединение подходов Фишера и Неймана-Пирсона: если , то результаты называются «значимыми», а значение сообщается [точно или приблизительно] и используется как мера убедительности (отмечая его со звездами, используя выражения как «очень значимые» и т. д.); если , то результаты называются «несущественными» и все. $p<\alpha$ $p$ $p>\alpha$

Это обычно называют «гибридным подходом», и действительно это гибрид. Некоторые люди утверждают, что этот гибрид бессвязен; Я склонен не соглашаться Почему нельзя делать две правильные вещи одновременно?

Дальнейшее чтение:

Является ли «гибрид» между подходами Фишера и Неймана-Пирсона к статистическому тестированию действительно «бессвязной путаницей»? - мой вопрос о "гибриде". Это вызвало некоторую дискуссию, но я все еще не удовлетворен ни одним из ответов, и планирую вернуться к этой теме в какой-то момент.
Неправильно ли называть результаты «очень значимыми»? - см. мой вчерашний ответ, который, по сути, говорит: это не так (но, возможно, немного небрежно).
Почему более низкие значения р не являются более убедительными доказательствами против нуля? Аргументы от Йоханссона 2011 - пример статьи против Фишера, утверждающей, что не дают доказательств против нуля; лучший ответ @Momo отлично справляется с разоблачением аргументов. Мой ответ на заглавный вопрос таков: но, конечно, они есть. $p$

амеба говорит восстановить монику
источник

1

(+1) Но см. Раздел 4.4 статьи Майкла Лью: некоторые предпочли бы приравнять количество доказательств с вероятностью, а не с p-значением, что имеет значение при сравнении p-значений в экспериментах с различными пространствами выборки. Таким образом, они говорят об «индексации» или «калибровке» доказательств / вероятности.

Scortchi - Восстановить Монику

Извините, я хотел сказать, точнее, что, с этой точки зрения, относительное «свидетельство» (или «поддержка») для различных значений, которые может принимать параметр, представляет собой отношение их функций правдоподобия, оцененных для наблюдаемых данных. Таким образом, в примере Лью, одна голова из шести бросков является тем же доказательством против нулевой гипотезы, независимо от того, является ли схема выборки биномиальной или отрицательной биномиальной; все же p-значения различаются - вы могли бы сказать, что при одной схеме выборки у вас было меньше шансов собрать столько доказательств против нуля. (Конечно, права на слово «доказательства», как и на «значительный», ...

Scortchi - Восстановить Монику

... еще не был твердо установлен.)

Scortchi - Восстановить Монику

Хм, большое спасибо за то, что привлекли мое внимание к этому разделу; Я читал это раньше, но, видимо, упустил его важность. Сразу скажу, что в данный момент меня это смущает. Лью пишет, что p-значения не следует «корректировать», принимая во внимание правила остановки; но я не вижу никаких корректировок в его формулах 5-6. Какими будут «нескорректированные» p-значения?

говорит амеба, восстанови Монику

1

@ Scortchi: Хммм. Я действительно не понимаю, почему одно из этих p-значений «скорректировано», а другое нет; почему не наоборот? Я совсем не убежден аргументом Лью здесь, и я даже не до конца понимаю его. Размышляя об этом, я нашел вопрос Лью от 2012 года о принципе вероятности и р-значениях и разместил там ответ. Дело в том, что для получения разных значений p не нужны разные правила остановки; Можно просто рассмотреть различные статистические данные теста. Возможно, мы сможем продолжить обсуждение там, я был бы признателен за ваш вклад.

говорит амеба: восстанови Монику

9

Я не знаю, что имеется в виду, когда меньшие p-значения «лучше» или что мы «более уверены в них». Но если рассматривать р-значения как меру того, насколько мы удивлены данными, если мы верили, что нулевая гипотеза кажется достаточно разумной; значение p является монотонной функцией выбранной вами статистики тестачтобы измерить расхождение с нулевой гипотезой в интересующем вас направлении, откалибровать ее относительно ее свойств в соответствии с соответствующей процедурой отбора проб из популяции или случайного назначения экспериментальных обработок. «Значение» стало техническим термином для обозначения p-значений, которые находятся выше или ниже некоторого определенного значения; таким образом, даже те, кто не интересуется указанием уровней значимости и принятием или отклонением гипотез, имеют тенденцию избегать таких фраз, как «очень значимые» - просто соблюдение соглашения.

Что касается зависимости значений p от размера выборки и размера эффекта, возможно, возникает некоторая путаница, потому что, например, может показаться, что 474 головы из 1000 бросков должны быть менее удивительными, чем 2 из 10 для того, кто считает монету честной - в конце концов доля выборки только немного отклоняется от 50% в первом случае, но значения p примерно одинаковы. Но правда или ложь не допускают степеней; р-значение делает то, что от него требуется: часто доверительные интервалы для параметра - это действительно то, что нужно для оценки точности измерения эффекта, а также практической или теоретической важности его оценочной величины.

Scortchi - Восстановить Монику
источник

1

p = 0.04

$p=0.04$

p = 0.000004

$p=0.000004$

1

Спасибо за комментарии и предложенные чтения. У меня было еще немного времени, чтобы обдумать эту проблему, и я считаю, что мне удалось изолировать свои основные источники путаницы.

Сначала я думал, что существует дихотомия между просмотром p-значения как меры неожиданности и утверждением, что это не абсолютная мера. Теперь я понимаю, что эти утверждения не обязательно противоречат друг другу. Первое позволяет нам быть более или менее уверенным в экстремальности (даже в сходстве?) Наблюдаемого эффекта по сравнению с другими гипотетическими результатами того же эксперимента. Принимая во внимание, что последний только говорит нам, что то, что можно считать убедительным p-значением в одном эксперименте, может совсем не быть впечатляющим в другом, например, если размеры выборки различаются.
Тот факт, что в некоторых областях науки используется другая базовая линия сильных р-значений, может быть либо отражением различия в общих размерах выборки (астрономия, клинические, психологические эксперименты) и / или попыткой передать величину эффекта в р- ценность. Но последнее является неправильным слиянием двух.
Значение - это вопрос да / нет, основанный на альфа, который был выбран до эксперимента. Следовательно, значение p не может быть более значимым, чем другое, так как оно меньше или больше выбранного уровня значимости. С другой стороны, меньшее значение p будет более убедительным, чем большее (для аналогичного размера выборки / идентичного эксперимента, как упоминалось в моем первом пункте).
Доверительные интервалы по своей сути передают величину эффекта, что делает их хорошим выбором для защиты от проблем, упомянутых выше.

Зенит
источник

0

Значение p не может быть мерой неожиданности, потому что это всего лишь мера вероятности, когда ноль истинен. Если значение равно нулю, то каждое возможное значение p одинаково вероятно. Нельзя удивляться никакому p-значению, прежде чем принять решение отклонить нуль. Как только кто-то решает, что есть эффект, значение p-значения исчезает. Кто-то просто сообщает об этом как о звене в относительно слабой индуктивной цепочке, чтобы оправдать отрицание или нет нулевого значения. Но если это было отклонено, это фактически больше не имеет никакого значения.

Джон
источник

+1 за тот факт, что «когда ноль истинен, то каждое значение p одинаково вероятно», однако, я думаю, что это справедливо только для непрерывных случайных величин?

Обратите внимание, что я сказал, что каждое «возможное» значение p одинаково вероятно. Так что это верно для дискретных или непрерывных переменных. С дискретными переменными число возможных значений меньше.

Джон

Вы уверены, что распределение р-значений (под

H_{0}

$H_0$ ) всегда одинаков для дискретных переменных, потому что эта ссылка, кажется, говорит о чем-то другом: stats.stackexchange.com/questions/153249/…

Я считаю, что ведущий ответ демонстрирует, что это не проблема. Причина, по которой распределение выглядит неравномерно, заключается в том, что возможные значения p расположены неравномерно. Гленн даже называет это квазиоднородным. Я предполагаю, что возможно, что с некоторыми очень разреженными тестами биномиальных данных с маленькими N, тогда вероятность определенных значений p будет неравной, но если вы рассмотрите вероятность значений p в данном диапазоне, она будет ближе к однородной.

Джон

1

@amoeba: допустим, что в t-тесте вы упоминаете тесты

H_{0} : μ = 0.5

$H_0: \mu=0.5$ и вы получите

p = 0.0000000004

$p=0.0000000004$ , Может быть, с тем же образцом, который вы тестируете

H_{0} : μ = 0.45

$H_0: \mu=0.45$ и вы получите

p = 0.0000000001

$p=0.0000000001$ Не могли бы вы сказать, что есть больше доказательств

μ = 0.45

$\mu=0.45$ ?

Являются ли меньшие p-значения более убедительными?

Ответы: