Является ли точное значение «р-значения» бессмысленным?

31

У меня была беседа со статистиком в 2009 году, когда он заявил, что точное значение p не имеет значения: важно только то, является ли оно значительным или нет. Т.е. один результат не может быть более значимым, чем другой; ваши образцы, например, либо принадлежат к той же группе, либо нет.

У меня есть некоторые сомнения по этому поводу, но я, возможно, могу понять идеологию:

  1. Порог 5% является произвольным, то есть то, что р = 0,051 не является значимым, а значение р = 0,049 не должно действительно изменить заключение вашего наблюдения или эксперимента, несмотря на то, что один результат является значимым, а другой - не значимым.

    Причина, по которой я сейчас об этом говорю, заключается в том, что я готовлюсь к магистратуре в области биоинформатики, и после общения с людьми в этой области, похоже, есть решительное стремление получить точное значение p для каждого набора статистики, который они делают. Например, если они «достигают» значения p p <1,9 × 10 -12 , они хотят продемонстрировать, насколько значительным является их результат, и что этот результат является СУПЕР информативным. Эта проблема иллюстрируется такими вопросами, как: Почему я не могу получить значение p меньше, чем 2.2e-16? где они хотят записать значение, которое указывает, что только по случайности это будет НАМНОГО меньше, чем 1 на триллион. Но я вижу небольшую разницу в демонстрации того, что этот результат будет меньше 1 на триллион по сравнению с 1 на триллион.

  2. Тогда я могу оценить, что р <0,01 показывает, что вероятность этого составляет менее 1%, тогда как р <0,001 указывает, что подобный результат еще более маловероятен, чем вышеупомянутое значение р, но если ваши выводы будут сделаны полностью другой? В конце концов, они оба являются значимыми значениями р. Единственный способ, которым я могу представить себе желание записать точное значение p, - это во время коррекции Бонферрони, когда порог изменяется из-за количества выполненных сравнений, тем самым уменьшая ошибку типа I. Но даже при этом, зачем вам показывать значение p, которое на 12 порядков меньше вашего порогового значения?

  3. И не является ли применение поправки Бонферрони само по себе немного произвольным? В том смысле, что изначально коррекция рассматривается как очень консервативная, и поэтому существуют другие корректировки, которые можно выбрать для доступа к уровню значимости, который наблюдатель мог бы использовать для их множественных сравнений. Но из-за этого не та точка, в которой что-то становится существенным, существенно изменчива в зависимости от того, какую статистику хочет использовать исследователь. Должна ли статистика быть настолько открытой для интерпретации?

В заключение, разве статистика не должна быть менее субъективной (хотя я полагаю, что ее субъективность является следствием многомерной системы), но в конечном итоге я хочу получить некоторые пояснения: может ли что-то быть более значительным, чем что-то еще? И будет ли p <0,001 достаточным для попытки записать точное значение p?

Марк Рамотовский
источник
6
Это довольно интересно: stat.washington.edu/peter/342/nuzzo.pdf
Дан,
4
Слабая связь: в моем ответе на вопрос « Когда использовать фишер и фреймворк Неймана-Пирсона» я утверждаю, что для каждой из них есть роль. Сохраняя мою позицию там, я бы сказал, что точные p-значения не будут иметь значения в рамках системы NP, но могут в рамках системы Fisherian (в той степени, в которой число представленных цифр действительно достоверно).
gung - Восстановить Монику
Удивительно, насколько некоторые статистики хотят придерживаться концепции р-значения, когда это обычно правильный ответ на неправильный вопрос. Предположим, что p-значения не были реализованы ни в одном программном пакете статистики. Я сомневаюсь, что люди написали бы свой собственный код, чтобы получить его.
probislogic
3
@probabilityislogic - разрезав мои статистические зубы на тестах перестановки, p-значения - очень естественный способ думать в этом случае, так что я мог бы просто написать свой собственный код, чтобы получить их, если они не были ... и на самом деле, на В очень редких случаях, когда я вообще делаю тесты, они обычно для какой-то нетипичной ситуации, требующей симуляции или какой-либо формы повторной выборки, я обнаружил, что на самом деле склонен это делать. Вместо этого я бы сказал, что проверки гипотез обычно отвечают на неправильный вопрос. В тех редких случаях, когда они это делают, я думаю, что они имеют ценность (не в последнюю очередь, другие люди не связаны моим уровнем значимости).
Glen_b
@glen_b - моя проблема с p-значениями заключается в том, что они не дают «ответа» на любые проверки гипотез самостоятельно, так как игнорируют альтернативы. Если вы ограничены только одним числом, то значение вероятности для данных будет гораздо лучше, чем значение p (а также наличие тех же проблем, что и p). Таким образом, люди не связаны вашим выбором статистики теста (в дополнение к тому, что вы не связаны вашим порогом значимости).
вероятностная

Ответы:

24
  1. Тип 1 / ложных ошибки отклонения не вполне произвольно, но да, это близко. Это несколько предпочтительнее, чем α = .051, потому что это менее сложная когнитивная система ( людям нравятся круглые числа и кратные пяти ). Это достойный компромисс между скептицизмом и практичностью, хотя, возможно, немного устаревший - современные методы и исследовательские ресурсы могут сделать более высокие стандарты (т.е. более низкие значения p ) предпочтительными, если стандарты должны быть ( Johnson, 2013 )α=.05α=.051p .

    ИМО, большая проблема, чем выбор порога, - это зачастую неисследованный выбор использовать порог, когда он не нужен или не полезен. В ситуациях, когда должен быть сделан практический выбор, я вижу ценность, но многие фундаментальные исследования не требуют решения отклонить свои доказательства и отказаться от перспективы отклонения нулевого значения только потому, что доказательства данного образца против этого не соответствуют почти любого разумного порога. Тем не менее, многие авторы этого исследования чувствуют себя обязанными сделать это по соглашению и неуклюже сопротивляются этому, придумывая такие термины, как «предельное» значение, чтобы просить внимания, когда они чувствуют, что оно ускользает, потому что их аудитории часто наплевать на s . 05 .p.05pинтерпретация значений, вы увидите много разногласий по поводу интерпретации значений двоичными / решениями относительно нуля.pfail toreject

  2. ppp

    p

  3. α не имея преодолеть любую глубоко привлекательную, но простую логику в этом.

    p

fail torejectp-значения сообщать? (и почему R ставит минимум на 2.22e-16?) "- это намного лучше, чем ответы на версию того вопроса, который вы связали в Stack Overflow!

Список литературы
- Джонсон, В.Е. (2013). Пересмотренные стандарты для статистических данных. Труды Национальной академии наук, 110 (48), 19313–19317. Получено с http://www.pnas.org/content/110/48/19313.full.pdf .
- Лью, МДж (2013). К P или нет к P: Об доказательной природе P-значений и их месте в научном заключении. arXiv: 1311.0081 [stat.ME]. Получено с http://arxiv.org/abs/1311.0081 .

Ник Стаунер
источник
3
+1, много хороших мыслей здесь. Однако я бы сказал, что мы должны иметь более низкие стандарты (то есть более высокие значения p) как предпочтительные. Часто бывает трудно получить достаточно данных, чтобы иметь хорошую возможность что-то изучать. Я провел ряд энергетических анализов для врачей, которые хотят изучать редкое заболевание. Они говорят: «Это действительно недостаточно изучено, у меня есть идея для нового подхода, мы, вероятно, сможем получить 50 пациентов с этим в течение следующих двух лет», и я говорю: «Ваша сила будет 45%», и проект отказались. Редкие заболевания будут по-прежнему недостаточно изучены, если р должно быть 0,05 или менее.
gung - Восстановить Монику
2
@ Gung: я полностью согласен. Я процитировал Johnson (2013) только потому, что я знал о его аргументе, а не потому, что я с ним согласен :) ИМО, имеющий один общепринятый стандарт, который негибок и нечувствителен к проблемам, которые вы описываете (что повторяет мою точку зрения во втором абзаце моего ответ на # 3) является одной из основных проблем, и ее корректировка вверх или вниз не решит ее. Когда нет реальной необходимости в сложном и быстром решении fail to/ rejectрешении, я думаю, что гораздо лучше сделать вывод о том, насколько ценные доказательства основаны на гораздо большем, чем вероятность выборки с нулевым значением.
Ник Стаунер
4
Отличная дискуссия. Интересная статья, имеющая какое-то отношение, - это Гельман и Стерн . Разница между «значимым» и «несущественным» сама по себе не является статистически значимой (позже опубликованной в American Statistician, 2006), которая, я бы не сказал, характеризует значение р как обязательно не имеет смысла, но привнесет серьезную осторожность в отношении того, чтобы уделять большое внимание сравнению значений p (скажем, не оценок эффекта). Гельман часто обсуждал вопросы, связанные с этим в своем блоге.
Glen_b
2
ппп
2
Похоже, Гельман также предоставляет ссылку на pdf опубликованной статьи на своем сайте.
Glen_b
13

Мне кажется, что если значение имеет смысл, его точное значение имеет смысл.

Значение p отвечает на этот вопрос:

Если в популяции, из которой эта выборка была выбрана случайным образом, нулевая гипотеза была верна, какова вероятность получения тестовой статистики, по крайней мере, такой же экстремальной, как и та, которую мы получили в выборке?

Как насчет этого определения делает точное значение бессмысленным?

Этот вопрос отличается от вопроса об экстремальных значениях p. Проблема с утверждениями, включающими p со многими нулями, заключается в том, насколько хорошо мы можем оценить p в крайних значениях. Поскольку мы не можем сделать это очень хорошо, нет смысла использовать такие точные оценки p. Это та же самая причина, по которой мы не говорим, что p = 0.0319281010012981. Мы не знаем эти последние цифры с уверенностью.

Должны ли наши выводы отличаться, если р <0,001, а не р <0,05? Или, если использовать точные числа, должны ли наши выводы отличаться, если р = 0,00023, а не р = 0,035?

Я думаю, что проблема в том, как мы обычно делаем выводы о p. Мы говорим «значительный» или «несущественный», основываясь на каком-то произвольном уровне. Если мы будем использовать эти произвольные уровни, то да, наши выводы будут другими. Но это не то, как мы должны думать об этих вещах. Мы должны смотреть на вес доказательств, и статистические тесты являются лишь частью этих доказательств. Я (еще раз) добавлю «магические критерии» Роберта Абельсона:

Величина - насколько велик эффект?

Артикуляция - насколько точно это указано? Есть много исключений?

Общность - к какой группе это относится?

Интересность - люди будут заботиться?

Достоверность - имеет ли смысл?

Это комбинация всего этого, что имеет значение. Обратите внимание, что Абельсон вообще не упоминает значения p, хотя они представляют собой своего рода гибрид величины и артикуляции.

Питер Флом - Восстановить Монику
источник
5
Мы не часто говорим это, но технически p-значение отражает только что-то о «вероятности получения тестовой статистики, по крайней мере, такой же экстремальной, как та, которую мы получили в выборке», если нулевая гипотеза верна, наша выборочная оценка дисперсии населения совершенно точно, и мы встречаем все другие предположения нашего теста. Создайте несколько доверительных интервалов вокруг некоторых значений p с помощью начальной загрузки, и я думаю, вы увидите, что часто мы не так уж уверены в сотых местах.
russellpierce
2
Короче говоря, это настолько запутанный контр-факт, что попытка измерить p-значение контрпродуктивна, когда мы действительно должны (как вы подразумеваете) вернуться к MAGIC.
russellpierce
Я должен признать, я не думал ставить доверительные интервалы (или доверительные интервалы) вокруг значений p. Интересно, сколько было сделано в этой области?
Питер Флом - Восстановить Монику
2
У меня нет под рукой цитаты, но я знаю, что есть работа в этом направлении - независимо от того, что это академическая вещь, потому что вы можете сделать доверительные интервалы ваших доверительных интервалов вашими доверительными интервалами почти до бесконечности (есть максимум дисперсия, которая разумно оценивается из любого набора данных). У меня был довольно длинный и подробный разговор по этому поводу с @Nick Stauner. У него все еще могут быть некоторые статьи, которые он выкопал во время этого разговора, чтобы поднести к столу.
russellpierce
1
Ничего о доверительных интервалах для значений p, которые я помню, но я мог бы просмотреть эти разделы. Меня также не интересовало создание доверительных интервалов для значений p ;)
Ник Стаунер