Я пытаюсь понять общую картину, сделанную в Taleb, 2016, «Мета-распределение стандартных значений P» .
В нем Талеб приводит следующий аргумент в пользу ненадежности р-значения (насколько я понимаю):
Процедура оценки, работающая на точках данных, поступающих из некоторого распределения X, выдает значение ap. Если мы вытянем еще n точек из этого распределения и выведем еще одно значение p, мы можем усреднить эти значения p, получив в пределе так называемое «истинное значение p».
Показано, что это «истинное значение p» имеет чрезвычайно высокую дисперсию, поэтому процедура «распределение +» с «истинным значением p» будет сообщать в 60% времени значение p <0,05.
Вопрос : как это можно согласовать с традиционным аргументом в пользу значения. Насколько я понимаю, значение p должно указывать вам, какой процент времени ваша процедура даст вам правильный интервал (или любой другой). Тем не менее, эта статья, кажется, утверждает, что эта интерпретация вводит в заблуждение, поскольку значение p не будет таким же, если вы снова запустите процедуру.
Я упускаю суть?
источник
Ответы:
Значение p является случайной величиной.
При (по крайней мере для непрерывно распределенной статистики) значение p должно иметь равномерное распределениеH0
Для согласованного теста при значение p должно доходить до 0 в пределе при увеличении размеров выборки до бесконечности. Точно так же, по мере увеличения размеров эффекта, распределение значений p также должно стремиться к сдвигу в сторону 0, но оно всегда будет «распространяться».H1
Понятие «истинного» p-значения для меня звучит глупо. Что бы это значило, под или H 1 ? Вы можете, например, сказать, что вы имеете в виду « среднее значение распределения значений р при некотором заданном размере эффекта и размере выборки », но тогда в каком смысле у вас есть конвергенция, когда разброс должен уменьшаться? Это не значит, что вы можете увеличить размер выборки, пока вы держите его постоянным.H0 H1
Именно так и должны себя вести p-значения - для ложного нуля, когда размер выборки увеличивается, p-значения должны становиться более концентрированными при низких значениях, но нет ничего, что предполагало бы, что распределение значений, которое оно принимает, когда вы сделайте ошибку типа II - когда значение p выше, чем бы ни был ваш уровень значимости - должно каким-то образом оказаться «близким» к этому уровню значимости.
Часто полезно учитывать, что происходит как с распределением какой-либо тестовой статистики, которую вы используете в альтернативе, так и с тем, что применение cdf под нулем как преобразование к этому будет делать с распределением (которое даст распределение p-значения в конкретная альтернатива). Когда вы думаете в этих терминах, часто нетрудно понять, почему поведение такое, какое есть.
Проблема в том, что я вижу ее не столько в том, что вообще есть какая-то внутренняя проблема с p-значениями или проверкой гипотез, но скорее в том, является ли проверка гипотез хорошим инструментом для вашей конкретной проблемы или что-то более подходящее в любом конкретном случае - это не ситуация для широкой полемики, а вопрос тщательного рассмотрения вопросов, которые проверяют гипотезы, и конкретных потребностей ваших обстоятельств. К сожалению, тщательное рассмотрение этих вопросов проводится редко - слишком часто возникает вопрос в форме "какой тест я использую для этих данных?" без учета того, каким может быть интересующий вопрос, не говоря уже о том, является ли какой-либо тест на гипотезу хорошим способом решения этой проблемы.
Одна трудность заключается в том, что проверки гипотезы широко неправильно понимаются и широко используются; люди очень часто думают, что говорят нам то, чего не делают. Значение p, возможно, является единственной наиболее неправильно понятой проверкой гипотез.
источник
Ответ Glen_b точен на (+1; считаю мой дополнительный). Статья, на которую вы ссылаетесь Талебом, тематически очень похожа на серию статей в литературе по психологии и статистике о том, какую информацию вы можете получить из анализа распределений p-значений (то, что авторы называют p-кривой ; см. Их сайт с куча ресурсов, включая приложение для анализа p-кривой здесь ).
Авторы предлагают два основных использования p-кривой:
Итак, что касается вашего более широкого вопроса:
Я бы сказал, что такие методы, как у Талеба (и других), нашли способ переназначить p-значения, чтобы мы могли получить полезную информацию обо всей литературе, анализируя группы p-значений, тогда как одно p-значение само по себе может быть гораздо более ограничен в своей полезности.
Ссылки
Саймонсон У., Нельсон Л.Д. и Симмонс Дж.П. (2014a). P-образная кривая: ключ к файлу. Журнал экспериментальной психологии: общее , 143 , 534–547.
Саймонсон У., Нельсон Л.Д. и Симмонс Дж.П. (2014b). Кривая P и размер эффекта: корректировка смещения публикации с использованием только значимых результатов. Перспективы психологических наук , 9 , 666-681.
Саймонсон У., Симмонс Дж.П. и Нельсон Л.Д. (2015). Более эффективные P-кривые. Повышение устойчивости анализа P-кривых к ошибкам, мошенничеству и амбициозным P-взломам. Ответ Ульриху и Миллеру (2015). Журнал экспериментальной психологии: общее , 144 , 1146-1152.
источник