Что вызывает разрыв в распределении опубликованных значений р при р <0,05?

В недавней работе Masicampo и Lalande (ML) собрали большое количество p-значений, опубликованных во многих различных исследованиях. Они наблюдали любопытный скачок в гистограмме значений p прямо на каноническом критическом уровне 5%.

Есть хорошая дискуссия об этом явлении ML в блоге профессора Вассермана:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

В его блоге вы найдете гистограмму:

Гистограмма опубликованных значений p

Поскольку уровень 5% является соглашением, а не законом природы, что вызывает такое поведение эмпирического распределения опубликованных значений p?

Смещение выбора, систематическая «корректировка» значений p чуть выше канонического критического уровня, или что?

statistical-significance p-value meta-analysis Zen
источник

Существует по крайней мере два вида объяснения: 1) «проблема с ящиком файлов» - публикуются исследования с p <.05, а вышеприведенные - нет, так что на самом деле это смесь двух распределений 2) Люди манипулируют вещами, возможно подсознательно , чтобы получить р <.05

Питер Флом - Восстановить Монику

Привет @ Zen. Да, именно такие вещи. Существует сильная тенденция делать подобные вещи. Если наша теория подтвердится, мы с меньшей вероятностью пойдем искать статистические проблемы, чем если бы это было не так. Кажется, это часть нашей натуры, но это то, от чего нужно бороться.

Питер Флом - Восстановить Монику

@Zen Вас может заинтересовать этот пост в блоге Эндрю Гельмана, в котором упоминается какое-то исследование, которое обнаруживает, что в исследовании публикаций нет предвзятости ...! andrewgelman.com/2012/04/…

smillig

Что было бы интересно, так это обратный расчет значений p из статей в журналах, которые явно отвергают статьи, основанные на значениях p, как это делалось в эпидемиологии (и в некоторых смыслах до сих пор). Интересно, изменится ли он, если в журнале было сказано, что ему все равно, или же рецензенты / авторы все еще проводят ментальное специальное тестирование на основе доверительных интервалов.

Fomite

Как объясняется в блоге Ларри, это коллекция опубликованных p-значений, а не случайная выборка p-значений, взятая из мира p-значений. Таким образом, нет причин, по которым на рисунке должно появляться равномерное распределение, даже как часть смеси, смоделированной в посте Ларри.

Сиань

Ответы:

(1) Как уже упоминалось @PeterFlom, одно из объяснений может быть связано с проблемой «файлового ящика». (2) @Zen также упомянул случай, когда автор (ы) манипулирует данными или моделями (например, дноуглубление данных ). (3) Однако мы не проверяем гипотезы на чисто случайной основе. То есть гипотезы не выбираются случайно, но у нас есть (более или менее сильное) теоретическое предположение.

Вас также могут заинтересовать работы Гербера и Малхотры, которые недавно провели исследования в этой области, применяя так называемый «тест суппорта»:

Вас также может заинтересовать этот специальный выпуск, отредактированный Андреасом Дикманном:

Методологические артефакты, манипулирование данными и мошенничество в экономике и социальных науках

Бернд Вайс
источник

Один из аргументов, который до сих пор отсутствует, - это гибкость анализа данных, известная как степень свободы исследователей. В каждом анализе нужно принять много решений, где установить критерий выбросов, как преобразовать данные и ...

Это было недавно затронуто во влиятельной статье Симмонса, Нельсона и Симонсона:

Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное. Психологическая наука , 22 (11), 1359-1366. DOI: 10,1177 / 0956797611417632

(Обратите внимание, что это тот же самый Симонсон, ответственный за некоторые недавно обнаруженные случаи мошенничества с данными в социальной психологии, например, интервью , публикация в блоге )

Хенрик
источник

Я думаю, что это сочетание всего, что уже было сказано. Это очень интересные данные, и я не думал о том, чтобы смотреть на распределения p-значений, как это раньше. Если нулевая гипотеза верна, значение p будет равномерным. Но, конечно, с опубликованными результатами мы не увидели бы единообразия по многим причинам.

Мы проводим исследование, потому что ожидаем, что нулевая гипотеза будет ложной. Поэтому мы должны получать значимые результаты чаще, чем нет.
Если бы нулевая гипотеза была ложной только половину времени, мы не получили бы равномерное распределение значений p.
Проблема с выдвижным ящиком: как уже упоминалось, мы бы боялись подавать бумагу, когда значение p не является значимым, например, ниже 0,05.
Издатели будут отклонять статью из-за незначительных результатов, даже если мы решили представить ее.
Когда результаты окажутся на границе, мы сделаем что-то (возможно, не со злым умыслом), чтобы получить значимость. (а) округлите до 0,05, когда значение р равно 0,053, (б) найдите наблюдения, которые, по нашему мнению, могут быть выбросами, и после их перемещения значение р упадет ниже 0,05.

Я надеюсь, что это суммирует все, что было сказано достаточно понятно.

Мне кажется интересным то, что мы видим значения р от 0,05 до 0,1. Если бы правила публикации отклоняли что-либо с p-значениями выше 0,05, то правый хвост обрезался бы на 0,05. Это на самом деле обрезание на 0,10? Если это так, возможно, некоторые авторы и некоторые журналы примут уровень значимости 0,10, но не выше.

Поскольку во многих документах есть несколько значений p (с поправкой на множественность или нет), и документ принят, потому что ключевые тесты были значительными, мы могли бы видеть незначительные значения p, включенные в список. В связи с этим возникает вопрос "Были ли все сообщенные значения p в документе включены в гистограмму?"

Еще одно наблюдение состоит в том, что существует значительная тенденция к увеличению частоты опубликованных работ, так как значение p становится намного ниже 0,05. Возможно, это свидетельствует о том, что авторы переоценивают мышление p-значения, p <0,0001 гораздо более достойно публикации. Я думаю, что автор игнорирует или не осознает, что значение p зависит как от размера выборки, так и от величины эффекта.

Майкл Р. Черник
источник