Высокая дисперсия распределения р-значений (аргумент в Taleb 2016)

16

Я пытаюсь понять общую картину, сделанную в Taleb, 2016, «Мета-распределение стандартных значений P» .

В нем Талеб приводит следующий аргумент в пользу ненадежности р-значения (насколько я понимаю):

Процедура оценки, работающая на точках данных, поступающих из некоторого распределения X, выдает значение ap. Если мы вытянем еще n точек из этого распределения и выведем еще одно значение p, мы можем усреднить эти значения p, получив в пределе так называемое «истинное значение p».nX

Показано, что это «истинное значение p» имеет чрезвычайно высокую дисперсию, поэтому процедура «распределение +» с «истинным значением p» будет сообщать в 60% времени значение p <0,05..12

Вопрос : как это можно согласовать с традиционным аргументом в пользу значения. Насколько я понимаю, значение p должно указывать вам, какой процент времени ваша процедура даст вам правильный интервал (или любой другой). Тем не менее, эта статья, кажется, утверждает, что эта интерпретация вводит в заблуждение, поскольку значение p не будет таким же, если вы снова запустите процедуру.p

Я упускаю суть?

лепидоптеролог
источник
1
Можете ли вы объяснить, что это за «традиционный аргумент»? Я не уверен, что мне ясно, какой аргумент вы рассматриваете.
Glen_b
Этот вопрос интересен и связан с литературой, для которой в CV даже есть тег, комбинирующий p-значения, которые вы можете добавить, если считаете это целесообразным.
mdewey
1
Я считаю, что вопрос о воспроизводимости p-значений может быть очень тесно связан с этим. Возможно, анализ там похож (или даже такой же), как упомянутый здесь.
Whuber

Ответы:

13

Значение p является случайной величиной.

При (по крайней мере для непрерывно распределенной статистики) значение p должно иметь равномерное распределениеH0

Для согласованного теста при значение p должно доходить до 0 в пределе при увеличении размеров выборки до бесконечности. Точно так же, по мере увеличения размеров эффекта, распределение значений p также должно стремиться к сдвигу в сторону 0, но оно всегда будет «распространяться».H1

Понятие «истинного» p-значения для меня звучит глупо. Что бы это значило, под или H 1 ? Вы можете, например, сказать, что вы имеете в виду « среднее значение распределения значений р при некотором заданном размере эффекта и размере выборки », но тогда в каком смысле у вас есть конвергенция, когда разброс должен уменьшаться? Это не значит, что вы можете увеличить размер выборки, пока вы держите его постоянным.H0H1

H1 . Значения р почти одинаковы, когда размер выборки невелик, а распределение медленно концентрируется к 0 при увеличении размера образца.

введите описание изображения здесь

Именно так и должны себя вести p-значения - для ложного нуля, когда размер выборки увеличивается, p-значения должны становиться более концентрированными при низких значениях, но нет ничего, что предполагало бы, что распределение значений, которое оно принимает, когда вы сделайте ошибку типа II - когда значение p выше, чем бы ни был ваш уровень значимости - должно каким-то образом оказаться «близким» к этому уровню значимости.

α=0.05

Часто полезно учитывать, что происходит как с распределением какой-либо тестовой статистики, которую вы используете в альтернативе, так и с тем, что применение cdf под нулем как преобразование к этому будет делать с распределением (которое даст распределение p-значения в конкретная альтернатива). Когда вы думаете в этих терминах, часто нетрудно понять, почему поведение такое, какое есть.

Проблема в том, что я вижу ее не столько в том, что вообще есть какая-то внутренняя проблема с p-значениями или проверкой гипотез, но скорее в том, является ли проверка гипотез хорошим инструментом для вашей конкретной проблемы или что-то более подходящее в любом конкретном случае - это не ситуация для широкой полемики, а вопрос тщательного рассмотрения вопросов, которые проверяют гипотезы, и конкретных потребностей ваших обстоятельств. К сожалению, тщательное рассмотрение этих вопросов проводится редко - слишком часто возникает вопрос в форме "какой тест я использую для этих данных?" без учета того, каким может быть интересующий вопрос, не говоря уже о том, является ли какой-либо тест на гипотезу хорошим способом решения этой проблемы.

Одна трудность заключается в том, что проверки гипотезы широко неправильно понимаются и широко используются; люди очень часто думают, что говорят нам то, чего не делают. Значение p, возможно, является единственной наиболее неправильно понятой проверкой гипотез.

Glen_b - Восстановить Монику
источник
Я думаю, что сближение п-значение определяется с фиксированным N, но мповторения эксперимента. Если я не пропустил что-то.
Лепидоптерист
Репликации @Lepidopterist на фиксированной N будет просто выборка из распределения р-значений при этом N, На данныйNзначение p является случайной величиной; Я показываю распределения образцов из некоторых примеров выше. То, к чему вы сходитесь, - это не какое-то «истинное» p-значение, а версии с плавным заполнением тех дистрибутивов, которые я показываю выше.
Glen_b
1
Но если у вас есть случайная величина, вы можете говорить об ее ожидании. В среднем значение p при H1 (при определенной модели) может составлять .12. Думаю, критика Талеба кажется мне странной. Кажется, он говорит, что подЧАС1 это ожидание может быть .12, но часто может быть меньше, чем .05, но это, кажется, хорошо, так как ЧАС1на самом деле верно, даже если ожидание>> .05
Lepidopterist
3
Я не думаю, что в настоящее время мы не согласны, но просто чтобы прояснить ситуацию - нет никакого смысла, в котором среднее значение распределения значения p при некоторой альтернативе при некотором заданном размере выборки является «истинным» значением p, больше, чем «3.5» - это истинный результат броска кубика. Нет никакого смысла, в котором значение р сходится к этому среднему значению - когда вы берете образец размераNиз вашего населения, вы просто получаете одно значение р из его распределения.
Glen_b
3
+1. Один связанный и забавный анализ, который приходит мне в голову, - это то, что Джефф Камминг называет «танцем р-значений»: см. Youtube.com/watch?v=5OL1RqHrZQ8 («танец» происходит примерно через 9 минут) , Эта небольшая презентация в основном подчеркивает, насколько переменны p-значения даже для относительно высокой мощности. Я не совсем согласен с основным утверждением Камминга о том, что доверительные интервалы намного лучше, чем p-значения (и я ненавижу, что он называет это «новой статистикой»), но я думаю, что эта изменчивость количества удивительна для многих людей и «Танец» - это милый способ продемонстрировать это.
говорит амеба: восстанови Монику
10

Ответ Glen_b точен на (+1; считаю мой дополнительный). Статья, на которую вы ссылаетесь Талебом, тематически очень похожа на серию статей в литературе по психологии и статистике о том, какую информацию вы можете получить из анализа распределений p-значений (то, что авторы называют p-кривой ; см. Их сайт с куча ресурсов, включая приложение для анализа p-кривой здесь ).

Авторы предлагают два основных использования p-кривой:

  1. Вы можете оценить доказательную ценность литературы, проанализировав p-кривую литературы . Это было их первое рекламное использование p-кривой. По сути, как описывает Glen_b, когда вы имеете дело с ненулевыми размерами эффекта, вы должны увидеть p-кривые, которые имеют положительный перекос ниже обычного порога p <.05, поскольку меньшие p-значения должны быть более вероятными, чем p- значения ближе к р= 0,05, когда эффект (или группа эффектов) являются «реальными». Таким образом, вы можете проверить p-кривую на значительный положительный перекос как критерий доказательной ценности. С другой стороны, разработчики предлагают выполнить тест отрицательного перекоса (т. Е. Более граничные значимые значения р, чем меньшие) в качестве способа проверки того, подвергался ли данный набор эффектов различным сомнительным аналитическим практикам.
  2. Вы можете рассчитать мета-аналитическую оценку величины эффекта без смещения публикации, используя p-кривую с опубликованными p-значениями . Это немного сложнее объяснить кратко, и вместо этого я бы порекомендовал вам проверить их статьи, сфокусированные на оценке эффекта (Simonsohn, Nelson, & Simmons, 2014a, 2014b), и самостоятельно ознакомиться с методами. Но, по сути, авторы предполагают, что p-кривая может быть использована для обхода вопроса об эффекте файлового ящика при проведении мета-анализа.

Итак, что касается вашего более широкого вопроса:

как это можно согласовать с традиционным аргументом в пользу p-значения?

Я бы сказал, что такие методы, как у Талеба (и других), нашли способ переназначить p-значения, чтобы мы могли получить полезную информацию обо всей литературе, анализируя группы p-значений, тогда как одно p-значение само по себе может быть гораздо более ограничен в своей полезности.

Ссылки

Саймонсон У., Нельсон Л.Д. и Симмонс Дж.П. (2014a). P-образная кривая: ключ к файлу. Журнал экспериментальной психологии: общее , 143 , 534–547.

Саймонсон У., Нельсон Л.Д. и Симмонс Дж.П. (2014b). Кривая P и размер эффекта: корректировка смещения публикации с использованием только значимых результатов. Перспективы психологических наук , 9 , 666-681.

Саймонсон У., Симмонс Дж.П. и Нельсон Л.Д. (2015). Более эффективные P-кривые. Повышение устойчивости анализа P-кривых к ошибкам, мошенничеству и амбициозным P-взломам. Ответ Ульриху и Миллеру (2015). Журнал экспериментальной психологии: общее , 144 , 1146-1152.

jsakaluk
источник