Обилие значений Р при отсутствии гипотезы

28

Я в эпидемиологии. Я не статистика, но я пытаюсь выполнить анализ самостоятельно, хотя я часто сталкиваюсь с трудностями. Я сделал свой первый анализ около 2 лет назад. Значения P были включены повсеместно в мои анализы (я просто делал то, что делали другие исследователи) от описательных таблиц до регрессионного анализа. Постепенно статистики, работающие в моей квартире, убедили меня пропустить все (!) Значения p, кроме тех случаев, когда у меня действительно есть гипотеза.

Проблема в том, что значения p широко распространены в публикациях медицинских исследований. Обычно значения p включаются в слишком много строк; описательные данные о средствах, медианах или чем-либо еще, как правило, соответствуют значениям p (t-критерий Стьюдента, хи-квадрат и т. д.).

Я недавно представил статью в журнал, и я отказался (вежливо) добавить значения p в мою «базовую» описательную таблицу. Статья была в конечном итоге отклонена.

В качестве примера см. Рисунок ниже; это описательная таблица из последней опубликованной статьи в уважаемом журнале внутренней медицины. введите описание изображения здесь

Статистики в основном (если не всегда) участвуют в рецензировании этих рукописей. Поэтому такой мирянин, как я, ожидает, что не найдет никаких значений p там, где нет гипотезы. Но они в изобилии, но причина этого остается неясной для меня. Мне трудно поверить, что это невежество.

Я понимаю, что это пограничный статистический вопрос. Но я ищу обоснование этого явления.

Адам Робинссон
источник
12
Значение р без гипотезы по своей сути ошибочно. Что означает значение p, когда у вас нет гипотезы?
jameselmore
3
Не могли бы вы привести примеры людей, использующих p-значения без какой-либо гипотезы? Это не ясно.
говорит амеба: восстанови Монику
4
@amoeba "" Проблема в том, что значения p везде в каждом медицинском журнале. Обычно в каждой строке указываются значения p, где описаны средние значения, медианы или пропорции. "" Они, как правило, представляют собой простые точные критерии Фишера или критерии хи-квадрат для различий, спрашивающие, имеет ли какая-либо строка сводной таблицы значительную разницу , Предполагаемая гипотеза состоит в том, что каждый ряд имеет значение.
Карл
2
Я подозреваю, что основная сила заключается в том, что p-значения дают ложное впечатление о окончательности данного утверждения. Издатели этих журналов должны любить это, поскольку это означает, что они владеют информацией, которая будет ценной в обозримом будущем. Параллельная культура отказа от финансирования или предложения исследований репликации также помогает минимизировать наличие противоречивых противоречивых результатов. Интересно, что произойдет, если люди в конечном итоге поймут, что информация, которой они владеют, состоит в основном из «бессмысленной деятельности» (термин @ glen_b). Даже если есть полезные вещи, смешанные в ... эвристика советует вам избегать.
Яркий
1
[at] jameselmore: я задаю тот же вопрос; это не имеет смысла, но применяется каждый день. [at] amoeba: Я случайно выбрал один из прочитанных журналов, попал в последнюю опубликованную статью и нашел его: onlinelibrary.wiley.com/doi/10.1111/joim.12230/full [at] Карл: точно, спасибо. @Momo: я приложил усилия, чтобы улучшить формулировку вопроса. Я думаю, что это важный вопрос, и я ценю ваше предложение. [at] Livid: спасибо за этот комментарий. Действительно, многие исследователи могли неправильно понять всю суть значений p.
Адам Робинссон

Ответы:

29

Ясно, что мне не нужно говорить вам, что такое p-значение или почему чрезмерная зависимость от них является проблемой; Вы, видимо, уже достаточно хорошо понимаете эти вещи.

С публикацией у вас есть два конкурирующих давления.

Первый - и который вы должны настаивать на каждой разумной возможности - это делать то, что имеет смысл.

Второе, в конечном счете, это необходимость публикации. Нет ничего полезного, если никто не увидит ваши прекрасные усилия по реформированию ужасной практики.

Поэтому вместо того, чтобы вообще избегать этого:

  • делайте так мало бессмысленной деятельности, как вы можете сойти с рук, все еще публикуя ее

  • возможно, включите упоминание этой недавней статьи о методах Природы [1], если вы думаете, что это поможет, или, возможно, лучше одну или несколько других ссылок. По крайней мере, это должно помочь установить, что существует некоторая оппозиция примату р-значений.

  • рассмотрим другие журналы, если подойдет другой

Это то же самое в других дисциплинах?

Проблема чрезмерного использования р-значения происходит в ряде дисциплин (это даже может быть проблемой , когда есть некоторая гипотеза), но гораздо менее распространены в некоторых , чем другие. В некоторых дисциплинах есть проблемы с p-value-itis, и проблемы, которые вызывают, могут в конечном итоге привести к несколько раздутым реакциям [2] (и в меньшей степени [1], и, по крайней мере, в некоторых местах, в некоторых других также).

α

Некоторые из них выступают за то, чтобы сосредоточиться на доверительных интервалах, другие - за размерами эффекта, некоторые - за байесовских методов, некоторые за меньшие p-значения, некоторые за то, чтобы избегать использования p-значений определенным образом и так далее. Есть много разных взглядов на то, что делать вместо этого, но между ними есть много материала о проблемах с использованием p-значений, по крайней мере, так, как это обычно делается.

Смотрите эти ссылки для многих дальнейших ссылок по очереди. Это всего лишь выборка - можно найти еще десятки ссылок. Несколько авторов приводят причины, по которым они считают, что p-значения распространены.

Некоторые из этих ссылок могут быть полезны, если вы хотите поспорить с редактором.

[1] Холси Л.Г., Курран-Эверетт Д., Воулер С.Л. и Драммонд Г.Б. (2015),
«Непостоянное значение P дает невоспроизводимые результаты»,
Nature Methods 12 , 179–185 doi: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / журнал / v12 / n3 / ABS / nmeth.3288.html

[2] Дэвид Трафимов, Д. и Маркс, М. (2015),
редакция «
Базовая и прикладная социальная психология» , 37 : 1–2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991

[3] Коэн, Дж. (1990),
Вещи , которые я изучил (до сих пор),
Американский психолог , 45 (12), 1304–1312.

[4] Коэн, Дж. (1994),
Земля круглая (р <.05),
Американский психолог , 49 (12), 997–1003.

[5] Valen E. Johnson (2013),
пересмотренные стандарты для статистических данных PNAS , vol. 110, нет. 48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke JK (2010),
чему верить: байесовские методы анализа данных,
тенденции в когнитивных науках 14 (7), 293-300

[7] Ioannidis, J. (2005)
Почему большинство опубликованных результатов исследований являются ложными,
PLoS Med. август; 2 (8): с124.
doi: 10.1371 / journal.pmed.0020124

[8] Гельман, А. (2013), Ценности и статистическая практика,
Эпидемиология Vol. 24 , № 1, январь, 69-72

[9] Гельман, А. (2013),
«Проблема с p-значениями заключается в том, как они используются»
(обсуждение «В защиту P-значений» Пола Мёрто, для Экологии ), неопубликованное
http: // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf

[10] Nuzzo R. (2014),
Статистические ошибки: значения P, «золотой стандарт» статистической достоверности, не так надежны, как полагают многие ученые,
News and Comment,
Nature , Vol. 506 (13), 150-152

[11] Wagenmakers E, (2007)
Практическое решение широко распространенных проблем значений p,
Psychonomic Bulletin & Review 14 (5), 779-804

Glen_b - Восстановить Монику
источник
7
+1. Я прочитал эту статью Nature Methods [1] еще одну неделю, и я не уверен, что она мне очень нравится. По сути, они утверждают, что p-значения могут быть очень переменными в тестах с низким энергопотреблением (см. Также «танец p-значений» на youtube) - то, что, конечно, верно, и это нужно подчеркнуть. Они пришли к выводу, что p-значения являются «плохими» (название звучит довольно резко) и что люди должны использовать доверительные интервалы, которые являются «хорошими». Но, конечно, доверительные интервалы также очень изменчивы при низкой мощности! Ситуация на их рисунке 6 (слева) не выглядит для меня намного лучше, чем на рисунке 2.
амеба говорит, что восстановите Монику
2
@amoeba Я не скажу, что я не согласен с тобой - там довольно много, с чем я не согласен; тем не менее, есть некоторые моменты, которые могут быть полезны для ФП. На самом деле, вы напомнили мне об изменениях, которые я намеревался сделать, но забыли о них.
Glen_b
3
Да, я, тем не менее, согласен с потенциальной полезностью - особенно потому, что «Природные методы» достаточно респектабельны, чтобы люди могли убедить их «авторитетом». Я просто хотел предостеречь OP от того, чтобы принимать все там как должное (их математика в порядке, я говорю о выводах / интерпретации здесь).
говорит амеба: восстанови Монику
1
Также интересен в этом контексте Уилкинсон и Целевая группа по статистическому выводу, Статистические методы в журналах по психологии, Американский психолог , Vol. 54, № 8, 594-604, 1999 г.
А. Донда,
Glen_b, я разместил вопрос об одной из претензий незнакомца в газете " Fickle P": stats.stackexchange.com/questions/250269 - очень благодарен вам за понимание.
говорит амеба: восстанови Монику
10

Значение p, или, в более общем смысле, тестирование значимости нулевой гипотезы (NHST), медленно удерживает все меньшее и меньшее значение. Настолько, что это стало запрещенным в журналах.

Большинство людей не понимают, что на самом деле говорит нам р-значение и почему оно говорит нам об этом, хотя оно используется повсеместно.

P(Data|H0)P(H0|Data)

H0H0

stoched
источник
1
Я бы добавил, что P (H0 | data) имеет смысл только в том случае, если H0 имеет смысл. Исследования должны быть разработаны и представлены таким образом, чтобы исключить другие неинтересные объяснения результатов (предвзятость, отсев, базовые различия) за пределами случая. Кроме того, даже идеальное слепое РКИ с существенной величиной эффекта говорит только о том, что было измерено что- то интересное. Выяснить, измерили ли вы то, что вас действительно интересует, - это еще одна проблема, часто встречающаяся вместе с навязчивой идеей p-значения.
Яркий
8

Это то же самое в других дисциплинах? В чем причина одержимости значениями р?

Гринвальд и соавт. (1996) попытка решить этот вопрос, касающийся психологии. Что касается также применения NHST для базовых различий, предположительно, редакторы (правильно или неправильно) решат, что «несущественные» базовые различия не могут объяснить результаты, в то время как «значимые» могут объяснить результаты. Это похоже на «причину 1», предложенную Greenwald et al. :

Почему NHT остается популярным?

«Почему NHT не поддается критике? Из-за отсутствия лучшего ответа заманчиво приписывать упорство NHT отсутствию характера у поведенческих ученых. Нежелание поведенческих ученых отказываться от виновного удовольствия от получения, возможно, ложных отклонений гипотезы с нулевой гипотезой может быть как нежелание пьющего отказаться от привычки перед ужином коктейль ... "

Причина I: HT обеспечивает дихотомический результат

«Из-за широкого принятия соглашения, что р <0,05 переводится как« статистически значимый », NHT может использоваться для получения дихотомического ответа (отклонить или не отклонить) на вопрос о нулевой гипотезе. Это часто можно рассматривать в качестве полезного ответа на теоретические вопросы, которые изложены с точки зрения направления прогноза, а не с точки зрения ожидаемого значения параметра ... »

Причина 2: значение p как осмысленный перевод на общий язык для статистики тестов

«В отличие от всего, что может быть воспринято так непосредственно из значений t, F или r (с соответствующими значениями df), мера неожиданности значения ap просто фиксируется количеством последовательных нулей справа от десятичной запятой ...»

Причина 3: значение p обеспечивает меру уверенности "в воспроизводимости отклонений нулевой гипотезы

«[В] отличие от величины эффекта (или доверительного интервала), значение ap, полученное в результате NHT, монотонно связано с оценкой воспроизводимости ненулевого результата. В этом утверждении подразумевается воспроизводимость (которая определена более формально чуть ниже) только в смысле НХТ, когда он повторяет вывод «отвергнуть-не отвергнуть», а не в смысле оценки близости между точечными или интервальными оценками ».

Размеры эффекта и значения p: что следует сообщать и что следует тиражировать? ЭНТОНИ Г. ГРИНВАЛЬД, РИЧАРД ГОНСАЛЕС, РИЧАРД Х. ХАРРИС И ДОНАЛЬД ГУТРИ. Психофизиология, 33 (1996). 175-183. Издательство Кембриджского университета. Напечатано в США. Copyright O 1996 Общество Психофизиологических Исследований

синевато-багровый
источник
Спасибо за эти важные комментарии, которые я обязательно буду использовать, чтобы в следующий раз поспорить с рецензентами.
Адам Робинссон
6

Значения P дают информацию о различиях между двумя группами результатов («лечение» и «контроль», «A» и «B» и т. Д.), Которые взяты из двух групп населения. Природа различий формализуется в формулировке гипотез - например, «среднее значение A больше среднего значения B». Низкие значения р предполагают, что различия не обусловлены случайными колебаниями, в то время как высокие значения р предполагают, что различия в двух выборках нельзя отличить от различий, которые могут возникать просто из случайных изменений. То, что является «низким» или «высоким» для p-значения, исторически было вопросом соглашения и вкуса, а не установлено строгой логикой или анализом доказательств.

Обязательным условием использования p-значений является то, что две группы результатов действительно сопоставимы, а именно то, что единственный источник различий между ними связан с переменной, которую вы оцениваете. В качестве преувеличенного примера представьте, что у вас есть статистика по двум болезням за два периода времени: A: смертность от холеры среди мужчин в британских тюрьмах 1920–1930 гг. И B: заражение малярией в Нигерии 1960–1970 гг. Вычисление p-значения из этих двух наборов данных было бы довольно абсурдным. Теперь, если A: смертность от холеры среди мужчин в британских тюрьмах, которых не лечили, по сравнению с B: смертность от холеры среди мужчин в британских тюрьмах, которых лечили регидратацией, то у вас есть основание для твердой статистической гипотезы.

Чаще всего это достигается путем тщательного планирования эксперимента, тщательного планирования обследования или тщательного сбора исторических данных и т. Д. Кроме того, различия между этими двумя результатами должны быть формализованы в утверждения гипотез, включающие выборочную статистику - часто выборочные средства, но также быть выборочной дисперсией или другой выборочной статистикой. Также можно создавать операторы гипотез, сравнивая два примера распределения в целом, используя стохастическое доминирование. Это редкость.

Спор о p-значениях сосредотачивается на том, «что действительно важно» для исследования? Именно здесь вступают в действие величины эффекта. По сути, размер эффекта - это величина разницы между двумя группами. Возможно иметь высокую статистическую значимость (низкое значение p -> не из-за случайного отклонения), но также и малый размер эффекта (очень небольшая разница в величине). Когда размеры эффекта очень велики, тогда допустимо несколько более высокие значения p.

Большинство дисциплин в настоящее время очень сильно стремятся к тому, чтобы сообщать о размерах эффектов и уменьшать или минимизировать роль p-значений. Они также поощряют более описательную статистику о распределении выборок. Некоторые подходы, в том числе Байесовская статистика, полностью устраняют p-значения.


Мой ответ сжат и упрощен. Есть много статей на эту тему, с которыми вы можете ознакомиться для более подробной информации, обоснований и особенностей, в том числе следующие:

MrMeritology
источник
@MerMeritology спасибо за предоставление этих важных ссылок. Я прочитаю их как можно скорее!
Адам Робинссон
6

«Поэтому такой мирянин, как я, ожидает, что не найдет никаких значений p там, где нет гипотезы».

Подразумевается, что OP говорит, что в конкретной таблице, которую он представляет, нет никаких гипотез, которые сопровождают сообщаемые p-значения. Просто чтобы убрать эту небольшую путаницу, безусловно, существуют нулевые гипотезы, но они скорее ... косвенно упоминаются (я полагаю, для экономии пространства).

«Р-значение» - это условная вероятность, скажем, для теста «правый хвост»,

p-valP(Tt(S)H0)=1FT|H0(t(S)H0)

TFT|H0(tH0)TH0t(S)TTH0TH0H0

Таким образом, значение p даже нельзя вычислить, если нет нулевой гипотезы , и всякий раз, когда мы видим сообщаемое значение p, где-то скрывается нулевая гипотеза.

В таблице, представленной в вопросе, мы читаем

«Все тесты на различия между WHR-тертилями ...»

Нулевая гипотеза «скрыта» в этой фразе: «Нет разницы между WHR-тертилями» (независимо от того, что такое «WΗR-тертиль»), выраженная в ее математической форме, которая в данном случае представляет собой разность двух величин, устанавливаемых равными нуль.

Алекос Пападопулос
источник
Я согласен, что за этими анализами могут быть гипотезы. Тем не менее, те, кто разрабатывает руководящие принципы для исследовательских работ (например, заявление STROBE), должны обратить внимание на обилие значений p. Я думаю, что значение ap должно быть зарезервировано для основной гипотезы статьи (которая редко превышает один). Но, тем не менее, я не могу сказать, что не согласен с вами =)
Адам Робинссон
1
@AdamRobinsson Хммм ... я не уверен. Такой «зарезервированный» подход увеличил бы (даже больше) важность, которую действительно имеет p-значение теста для достижения заключения. Для меня это просто еще один результат, который должен сочетаться со многими другими аспектами, результатами, внеплановой информацией, логикой и т. Д. С другой стороны, если p-значения разбросаны повсюду, это Проще понять, что они не являются определенным критерием для заключения.
Алекос Пападопулос
Alecos Я читаю что-то другое в таблице, которая относится к терминалам WHR (т. Е. Отношение талии к бедрам), а не к WRT, тогда как тертили - это значения, которые делят распределение на 3 части в том же смысле, что квартили - это значения, которые делятся на 4 части и децили состоят из десяти частей.
Glen_b
@Glen_b Спасибо, это была просто опечатка с моей стороны. Починил это.
Алекос Пападопулос
2
Смотрите, например, здесь . Но, вероятно, не здесь .
Glen_b
2

Мне стало любопытно, и я прочитал статью, которую OP привел в качестве примера: абдоминальное ожирение увеличивает риск перелома бедра . Я не медицинский исследователь и обычно не читаю медицинские статьи.

p

pp

ppp

p

Звучит так, будто вопрос конкретно относится к таким описательным таблицам. Если так, то это какая-то странная (но в основном безвредная?) Практика в медицинских журналах, выживающая благодаря традициям.


pn=43000

амеба говорит восстановить монику
источник
@amoeba Я выбрал статью в Рандо; это была последняя опубликованная статья по эпидемиологии в этом журнале. Я уверен, что если бы я искал еще немного, я мог бы предоставить статью с гораздо большим количеством бессмысленных значений p. Как вы заметили, существует р-значение, но из ваших, и других ответов выше и ниже, кажется, что исследовательское сообщество занимается этим.
Адам Робинссон
@ Адам, мне нравится ваш вопрос (+1) и ответ Glen_b (+1), но если этот «случайно выбранный» документ является репрезентативным, то большинство пунктов, которые высказал Glen_b, и большинство статей, на которые он ссылался, не применяются или не относятся к ситуация в медицинских исследованиях, о которой вы спрашивали. Если это не представитель, то, конечно, я не могу судить.
говорит амеба: восстанови Монику
Я действительно получил огромную помощь от ваших ответов несколько раз. Я сделал суждение, основанное на моем понимании этой проблемы. Я считаю, что все предоставленные ответы полезны, и они в совокупности отвечают на вопрос.
Адам Робинссон
1

Уровень статистического рецензирования не так высок, как можно было бы подумать из моего опыта. Для всех прикладных работ, над которыми я работал, все статистические комментарии были получены от экспертов в прикладной области, а не от статистиков. Для «лучших» журналов, хотя есть более пристальное внимание, нередко можно увидеть результаты, которые имеют серьезные ошибки. Я думаю, что это отчасти потому, что область статистики может быть трудной (как видно из разногласий между многими из ее великих умов).

Во-вторых, читатели в поле ожидают увидеть вещи определенным образом. В одном недавнем опыте я изобразил вероятности из модели, но это было сбито, потому что мой сотрудник правильно угадал, что его читателям будет удобнее использовать полосу необработанных данных. В целом, многие читатели ожидают увидеть значения p рядом с таблицей базовых характеристик.

Не имеет отношения к вашему прямому вопросу, но, возможно, имеет отношение: p-значения используются почти в каждом тексте с использованием методов частых или вероятностных методов. Авторы часто вносят огромный вклад и глубоко задумываются о статистике. Хотя экспериментаторы злоупотребляют ими, они, безусловно, имеют место в статистике.

julieth
источник
спасибо за этот комментарий. Я мог бы принять ваше заявление еще дальше; Я думаю, что невероятно большая доля опубликованных результатов содержит статистические недостатки по разным причинам. Мой руководитель часто говорит: «Процесс проверки основан на словах джентльмена». Я думаю, это довольно забавно.
Адам Робинссон
1

Мне часто приходится читать медицинские статьи, и я чувствую, что маятник, кажется, качается из одной крайности в другую, а не остается в центральной сбалансированной зоне.

Следующий подход, кажется, работает хорошо. Если значение P мало, наблюдаемая разница вряд ли будет случайной. Следовательно, мы должны посмотреть на величину разницы и решить, имеет ли она какое-либо практическое значение. Очень маленькие значения P встречаются при больших размерах выборки даже с очень небольшими различиями, которые могут не иметь практического значения.

Не включение значений P в таблицу исходных данных может быть невыгодным. Поэтому, если в исследовании есть две группы со средним возрастом 54 и 59 лет, я хочу знать, может ли это различие быть случайным в одиночку. Если P невелик, я думаю, может ли эта 5-летняя разница в 2 группах повлиять на результаты исследования. Если P не маленький, я не должен отвечать на этот вопрос.

Проблема возникает, если полагаться исключительно на значение P, а не проверять величину разницы (например, простое изменение процента). Некоторые считают, что значения P должны быть полностью опущены, так что остается только разница. Сбалансированное решение состоит в том, чтобы сделать акцент на оценке обоих этих факторов, а не просто отбросить значение P, которое имеет ограниченное, но «существенное» значение. Размер эффекта также, вероятно, тесно коррелирует со значением P (точно так же, как доверительные интервалы), и он также вряд ли полностью сместит значения P из статистического ландшафта. Как упомянуто в следующей статье, есть много достоинств проверки нулевых гипотез, из-за которых она остается популярной:

ЭНТОНИ Г. ГРИНВАЛЬД, РИЧАРД ГОНСАЛЕС, РИЧАРД Дж. ХАРРИС, И ДОНАЛЬД ГУТРИ Размеры эффекта и значения p: что следует сообщать и что следует тиражировать? Психофизиология, 33 (1996). 175-183.

rnso
источник