У меня была беседа со статистиком в 2009 году, когда он заявил, что точное значение p не имеет значения: важно только то, является ли оно значительным или нет. Т.е. один результат не может быть более значимым, чем другой; ваши образцы, например, либо принадлежат к той же группе, либо нет.
У меня есть некоторые сомнения по этому поводу, но я, возможно, могу понять идеологию:
Порог 5% является произвольным, то есть то, что р = 0,051 не является значимым, а значение р = 0,049 не должно действительно изменить заключение вашего наблюдения или эксперимента, несмотря на то, что один результат является значимым, а другой - не значимым.
Причина, по которой я сейчас об этом говорю, заключается в том, что я готовлюсь к магистратуре в области биоинформатики, и после общения с людьми в этой области, похоже, есть решительное стремление получить точное значение p для каждого набора статистики, который они делают. Например, если они «достигают» значения p p <1,9 × 10 -12 , они хотят продемонстрировать, насколько значительным является их результат, и что этот результат является СУПЕР информативным. Эта проблема иллюстрируется такими вопросами, как: Почему я не могу получить значение p меньше, чем 2.2e-16? где они хотят записать значение, которое указывает, что только по случайности это будет НАМНОГО меньше, чем 1 на триллион. Но я вижу небольшую разницу в демонстрации того, что этот результат будет меньше 1 на триллион по сравнению с 1 на триллион.
Тогда я могу оценить, что р <0,01 показывает, что вероятность этого составляет менее 1%, тогда как р <0,001 указывает, что подобный результат еще более маловероятен, чем вышеупомянутое значение р, но если ваши выводы будут сделаны полностью другой? В конце концов, они оба являются значимыми значениями р. Единственный способ, которым я могу представить себе желание записать точное значение p, - это во время коррекции Бонферрони, когда порог изменяется из-за количества выполненных сравнений, тем самым уменьшая ошибку типа I. Но даже при этом, зачем вам показывать значение p, которое на 12 порядков меньше вашего порогового значения?
И не является ли применение поправки Бонферрони само по себе немного произвольным? В том смысле, что изначально коррекция рассматривается как очень консервативная, и поэтому существуют другие корректировки, которые можно выбрать для доступа к уровню значимости, который наблюдатель мог бы использовать для их множественных сравнений. Но из-за этого не та точка, в которой что-то становится существенным, существенно изменчива в зависимости от того, какую статистику хочет использовать исследователь. Должна ли статистика быть настолько открытой для интерпретации?
В заключение, разве статистика не должна быть менее субъективной (хотя я полагаю, что ее субъективность является следствием многомерной системы), но в конечном итоге я хочу получить некоторые пояснения: может ли что-то быть более значительным, чем что-то еще? И будет ли p <0,001 достаточным для попытки записать точное значение p?
источник
Ответы:
Тип 1 / ложных ошибки отклонения не вполне произвольно, но да, это близко. Это несколько предпочтительнее, чем α = .051, потому что это менее сложная когнитивная система ( людям нравятся круглые числа и кратные пяти ). Это достойный компромисс между скептицизмом и практичностью, хотя, возможно, немного устаревший - современные методы и исследовательские ресурсы могут сделать более высокие стандарты (т.е. более низкие значения p ) предпочтительными, если стандарты должны быть ( Johnson, 2013 )α=.05 α=.051 p .
ИМО, большая проблема, чем выбор порога, - это зачастую неисследованный выбор использовать порог, когда он не нужен или не полезен. В ситуациях, когда должен быть сделан практический выбор, я вижу ценность, но многие фундаментальные исследования не требуют решения отклонить свои доказательства и отказаться от перспективы отклонения нулевого значения только потому, что доказательства данного образца против этого не соответствуют почти любого разумного порога. Тем не менее, многие авторы этого исследования чувствуют себя обязанными сделать это по соглашению и неуклюже сопротивляются этому, придумывая такие термины, как «предельное» значение, чтобы просить внимания, когда они чувствуют, что оно ускользает, потому что их аудитории часто наплевать на s ≥ . 05 .p ≥.05 p интерпретация значений, вы увидите много разногласий по поводу интерпретации значений двоичными / решениями относительно нуля.p
fail to
reject
fail to
reject
Список литературы
- Джонсон, В.Е. (2013). Пересмотренные стандарты для статистических данных. Труды Национальной академии наук, 110 (48), 19313–19317. Получено с http://www.pnas.org/content/110/48/19313.full.pdf .
- Лью, МДж (2013). К P или нет к P: Об доказательной природе P-значений и их месте в научном заключении. arXiv: 1311.0081 [stat.ME]. Получено с http://arxiv.org/abs/1311.0081 .
источник
fail to
/reject
решении, я думаю, что гораздо лучше сделать вывод о том, насколько ценные доказательства основаны на гораздо большем, чем вероятность выборки с нулевым значением.Мне кажется, что если значение имеет смысл, его точное значение имеет смысл.
Значение p отвечает на этот вопрос:
Как насчет этого определения делает точное значение бессмысленным?
Этот вопрос отличается от вопроса об экстремальных значениях p. Проблема с утверждениями, включающими p со многими нулями, заключается в том, насколько хорошо мы можем оценить p в крайних значениях. Поскольку мы не можем сделать это очень хорошо, нет смысла использовать такие точные оценки p. Это та же самая причина, по которой мы не говорим, что p = 0.0319281010012981. Мы не знаем эти последние цифры с уверенностью.
Должны ли наши выводы отличаться, если р <0,001, а не р <0,05? Или, если использовать точные числа, должны ли наши выводы отличаться, если р = 0,00023, а не р = 0,035?
Я думаю, что проблема в том, как мы обычно делаем выводы о p. Мы говорим «значительный» или «несущественный», основываясь на каком-то произвольном уровне. Если мы будем использовать эти произвольные уровни, то да, наши выводы будут другими. Но это не то, как мы должны думать об этих вещах. Мы должны смотреть на вес доказательств, и статистические тесты являются лишь частью этих доказательств. Я (еще раз) добавлю «магические критерии» Роберта Абельсона:
Величина - насколько велик эффект?
Артикуляция - насколько точно это указано? Есть много исключений?
Общность - к какой группе это относится?
Интересность - люди будут заботиться?
Достоверность - имеет ли смысл?
Это комбинация всего этого, что имеет значение. Обратите внимание, что Абельсон вообще не упоминает значения p, хотя они представляют собой своего рода гибрид величины и артикуляции.
источник