Я в эпидемиологии. Я не статистика, но я пытаюсь выполнить анализ самостоятельно, хотя я часто сталкиваюсь с трудностями. Я сделал свой первый анализ около 2 лет назад. Значения P были включены повсеместно в мои анализы (я просто делал то, что делали другие исследователи) от описательных таблиц до регрессионного анализа. Постепенно статистики, работающие в моей квартире, убедили меня пропустить все (!) Значения p, кроме тех случаев, когда у меня действительно есть гипотеза.
Проблема в том, что значения p широко распространены в публикациях медицинских исследований. Обычно значения p включаются в слишком много строк; описательные данные о средствах, медианах или чем-либо еще, как правило, соответствуют значениям p (t-критерий Стьюдента, хи-квадрат и т. д.).
Я недавно представил статью в журнал, и я отказался (вежливо) добавить значения p в мою «базовую» описательную таблицу. Статья была в конечном итоге отклонена.
В качестве примера см. Рисунок ниже; это описательная таблица из последней опубликованной статьи в уважаемом журнале внутренней медицины.
Статистики в основном (если не всегда) участвуют в рецензировании этих рукописей. Поэтому такой мирянин, как я, ожидает, что не найдет никаких значений p там, где нет гипотезы. Но они в изобилии, но причина этого остается неясной для меня. Мне трудно поверить, что это невежество.
Я понимаю, что это пограничный статистический вопрос. Но я ищу обоснование этого явления.
источник
Ответы:
Ясно, что мне не нужно говорить вам, что такое p-значение или почему чрезмерная зависимость от них является проблемой; Вы, видимо, уже достаточно хорошо понимаете эти вещи.
С публикацией у вас есть два конкурирующих давления.
Первый - и который вы должны настаивать на каждой разумной возможности - это делать то, что имеет смысл.
Второе, в конечном счете, это необходимость публикации. Нет ничего полезного, если никто не увидит ваши прекрасные усилия по реформированию ужасной практики.
Поэтому вместо того, чтобы вообще избегать этого:
делайте так мало бессмысленной деятельности, как вы можете сойти с рук, все еще публикуя ее
возможно, включите упоминание этой недавней статьи о методах Природы [1], если вы думаете, что это поможет, или, возможно, лучше одну или несколько других ссылок. По крайней мере, это должно помочь установить, что существует некоторая оппозиция примату р-значений.
рассмотрим другие журналы, если подойдет другой
Проблема чрезмерного использования р-значения происходит в ряде дисциплин (это даже может быть проблемой , когда есть некоторая гипотеза), но гораздо менее распространены в некоторых , чем другие. В некоторых дисциплинах есть проблемы с p-value-itis, и проблемы, которые вызывают, могут в конечном итоге привести к несколько раздутым реакциям [2] (и в меньшей степени [1], и, по крайней мере, в некоторых местах, в некоторых других также).
Некоторые из них выступают за то, чтобы сосредоточиться на доверительных интервалах, другие - за размерами эффекта, некоторые - за байесовских методов, некоторые за меньшие p-значения, некоторые за то, чтобы избегать использования p-значений определенным образом и так далее. Есть много разных взглядов на то, что делать вместо этого, но между ними есть много материала о проблемах с использованием p-значений, по крайней мере, так, как это обычно делается.
Смотрите эти ссылки для многих дальнейших ссылок по очереди. Это всего лишь выборка - можно найти еще десятки ссылок. Несколько авторов приводят причины, по которым они считают, что p-значения распространены.
Некоторые из этих ссылок могут быть полезны, если вы хотите поспорить с редактором.
[1] Холси Л.Г., Курран-Эверетт Д., Воулер С.Л. и Драммонд Г.Б. (2015),
«Непостоянное значение P дает невоспроизводимые результаты»,
Nature Methods 12 , 179–185 doi: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / журнал / v12 / n3 / ABS / nmeth.3288.html
[2] Дэвид Трафимов, Д. и Маркс, М. (2015),
редакция «
Базовая и прикладная социальная психология» , 37 : 1–2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991
[3] Коэн, Дж. (1990),
Вещи , которые я изучил (до сих пор),
Американский психолог , 45 (12), 1304–1312.
[4] Коэн, Дж. (1994),
Земля круглая (р <.05),
Американский психолог , 49 (12), 997–1003.
[5] Valen E. Johnson (2013),
пересмотренные стандарты для статистических данных PNAS , vol. 110, нет. 48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf
[6] Kruschke JK (2010),
чему верить: байесовские методы анализа данных,
тенденции в когнитивных науках 14 (7), 293-300
[7] Ioannidis, J. (2005)
Почему большинство опубликованных результатов исследований являются ложными,
PLoS Med. август; 2 (8): с124.
doi: 10.1371 / journal.pmed.0020124
[8] Гельман, А. (2013), Ценности и статистическая практика,
Эпидемиология Vol. 24 , № 1, январь, 69-72
[9] Гельман, А. (2013),
«Проблема с p-значениями заключается в том, как они используются»
(обсуждение «В защиту P-значений» Пола Мёрто, для Экологии ), неопубликованное
http: // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf
[10] Nuzzo R. (2014),
Статистические ошибки: значения P, «золотой стандарт» статистической достоверности, не так надежны, как полагают многие ученые,
News and Comment,
Nature , Vol. 506 (13), 150-152
[11] Wagenmakers E, (2007)
Практическое решение широко распространенных проблем значений p,
Psychonomic Bulletin & Review 14 (5), 779-804
источник
Значение p, или, в более общем смысле, тестирование значимости нулевой гипотезы (NHST), медленно удерживает все меньшее и меньшее значение. Настолько, что это стало запрещенным в журналах.
Большинство людей не понимают, что на самом деле говорит нам р-значение и почему оно говорит нам об этом, хотя оно используется повсеместно.
источник
Гринвальд и соавт. (1996) попытка решить этот вопрос, касающийся психологии. Что касается также применения NHST для базовых различий, предположительно, редакторы (правильно или неправильно) решат, что «несущественные» базовые различия не могут объяснить результаты, в то время как «значимые» могут объяснить результаты. Это похоже на «причину 1», предложенную Greenwald et al. :
Размеры эффекта и значения p: что следует сообщать и что следует тиражировать? ЭНТОНИ Г. ГРИНВАЛЬД, РИЧАРД ГОНСАЛЕС, РИЧАРД Х. ХАРРИС И ДОНАЛЬД ГУТРИ. Психофизиология, 33 (1996). 175-183. Издательство Кембриджского университета. Напечатано в США. Copyright O 1996 Общество Психофизиологических Исследований
источник
Значения P дают информацию о различиях между двумя группами результатов («лечение» и «контроль», «A» и «B» и т. Д.), Которые взяты из двух групп населения. Природа различий формализуется в формулировке гипотез - например, «среднее значение A больше среднего значения B». Низкие значения р предполагают, что различия не обусловлены случайными колебаниями, в то время как высокие значения р предполагают, что различия в двух выборках нельзя отличить от различий, которые могут возникать просто из случайных изменений. То, что является «низким» или «высоким» для p-значения, исторически было вопросом соглашения и вкуса, а не установлено строгой логикой или анализом доказательств.
Обязательным условием использования p-значений является то, что две группы результатов действительно сопоставимы, а именно то, что единственный источник различий между ними связан с переменной, которую вы оцениваете. В качестве преувеличенного примера представьте, что у вас есть статистика по двум болезням за два периода времени: A: смертность от холеры среди мужчин в британских тюрьмах 1920–1930 гг. И B: заражение малярией в Нигерии 1960–1970 гг. Вычисление p-значения из этих двух наборов данных было бы довольно абсурдным. Теперь, если A: смертность от холеры среди мужчин в британских тюрьмах, которых не лечили, по сравнению с B: смертность от холеры среди мужчин в британских тюрьмах, которых лечили регидратацией, то у вас есть основание для твердой статистической гипотезы.
Чаще всего это достигается путем тщательного планирования эксперимента, тщательного планирования обследования или тщательного сбора исторических данных и т. Д. Кроме того, различия между этими двумя результатами должны быть формализованы в утверждения гипотез, включающие выборочную статистику - часто выборочные средства, но также быть выборочной дисперсией или другой выборочной статистикой. Также можно создавать операторы гипотез, сравнивая два примера распределения в целом, используя стохастическое доминирование. Это редкость.
Спор о p-значениях сосредотачивается на том, «что действительно важно» для исследования? Именно здесь вступают в действие величины эффекта. По сути, размер эффекта - это величина разницы между двумя группами. Возможно иметь высокую статистическую значимость (низкое значение p -> не из-за случайного отклонения), но также и малый размер эффекта (очень небольшая разница в величине). Когда размеры эффекта очень велики, тогда допустимо несколько более высокие значения p.
Большинство дисциплин в настоящее время очень сильно стремятся к тому, чтобы сообщать о размерах эффектов и уменьшать или минимизировать роль p-значений. Они также поощряют более описательную статистику о распределении выборок. Некоторые подходы, в том числе Байесовская статистика, полностью устраняют p-значения.
Мой ответ сжат и упрощен. Есть много статей на эту тему, с которыми вы можете ознакомиться для более подробной информации, обоснований и особенностей, в том числе следующие:
источник
Подразумевается, что OP говорит, что в конкретной таблице, которую он представляет, нет никаких гипотез, которые сопровождают сообщаемые p-значения. Просто чтобы убрать эту небольшую путаницу, безусловно, существуют нулевые гипотезы, но они скорее ... косвенно упоминаются (я полагаю, для экономии пространства).
«Р-значение» - это условная вероятность, скажем, для теста «правый хвост»,
Таким образом, значение p даже нельзя вычислить, если нет нулевой гипотезы , и всякий раз, когда мы видим сообщаемое значение p, где-то скрывается нулевая гипотеза.
В таблице, представленной в вопросе, мы читаем
Нулевая гипотеза «скрыта» в этой фразе: «Нет разницы между WHR-тертилями» (независимо от того, что такое «WΗR-тертиль»), выраженная в ее математической форме, которая в данном случае представляет собой разность двух величин, устанавливаемых равными нуль.
источник
Мне стало любопытно, и я прочитал статью, которую OP привел в качестве примера: абдоминальное ожирение увеличивает риск перелома бедра . Я не медицинский исследователь и обычно не читаю медицинские статьи.
Звучит так, будто вопрос конкретно относится к таким описательным таблицам. Если так, то это какая-то странная (но в основном безвредная?) Практика в медицинских журналах, выживающая благодаря традициям.
источник
Уровень статистического рецензирования не так высок, как можно было бы подумать из моего опыта. Для всех прикладных работ, над которыми я работал, все статистические комментарии были получены от экспертов в прикладной области, а не от статистиков. Для «лучших» журналов, хотя есть более пристальное внимание, нередко можно увидеть результаты, которые имеют серьезные ошибки. Я думаю, что это отчасти потому, что область статистики может быть трудной (как видно из разногласий между многими из ее великих умов).
Во-вторых, читатели в поле ожидают увидеть вещи определенным образом. В одном недавнем опыте я изобразил вероятности из модели, но это было сбито, потому что мой сотрудник правильно угадал, что его читателям будет удобнее использовать полосу необработанных данных. В целом, многие читатели ожидают увидеть значения p рядом с таблицей базовых характеристик.
Не имеет отношения к вашему прямому вопросу, но, возможно, имеет отношение: p-значения используются почти в каждом тексте с использованием методов частых или вероятностных методов. Авторы часто вносят огромный вклад и глубоко задумываются о статистике. Хотя экспериментаторы злоупотребляют ими, они, безусловно, имеют место в статистике.
источник
Мне часто приходится читать медицинские статьи, и я чувствую, что маятник, кажется, качается из одной крайности в другую, а не остается в центральной сбалансированной зоне.
Следующий подход, кажется, работает хорошо. Если значение P мало, наблюдаемая разница вряд ли будет случайной. Следовательно, мы должны посмотреть на величину разницы и решить, имеет ли она какое-либо практическое значение. Очень маленькие значения P встречаются при больших размерах выборки даже с очень небольшими различиями, которые могут не иметь практического значения.
Не включение значений P в таблицу исходных данных может быть невыгодным. Поэтому, если в исследовании есть две группы со средним возрастом 54 и 59 лет, я хочу знать, может ли это различие быть случайным в одиночку. Если P невелик, я думаю, может ли эта 5-летняя разница в 2 группах повлиять на результаты исследования. Если P не маленький, я не должен отвечать на этот вопрос.
Проблема возникает, если полагаться исключительно на значение P, а не проверять величину разницы (например, простое изменение процента). Некоторые считают, что значения P должны быть полностью опущены, так что остается только разница. Сбалансированное решение состоит в том, чтобы сделать акцент на оценке обоих этих факторов, а не просто отбросить значение P, которое имеет ограниченное, но «существенное» значение. Размер эффекта также, вероятно, тесно коррелирует со значением P (точно так же, как доверительные интервалы), и он также вряд ли полностью сместит значения P из статистического ландшафта. Как упомянуто в следующей статье, есть много достоинств проверки нулевых гипотез, из-за которых она остается популярной:
ЭНТОНИ Г. ГРИНВАЛЬД, РИЧАРД ГОНСАЛЕС, РИЧАРД Дж. ХАРРИС, И ДОНАЛЬД ГУТРИ Размеры эффекта и значения p: что следует сообщать и что следует тиражировать? Психофизиология, 33 (1996). 175-183.
источник