Как много мы знаем о p-хакерстве «в дикой природе»?

94

Фраза p- взлома (также: «выемка данных» , «отслеживание» или «промысел») относится к различным видам статистической халатности, в которой результаты становятся искусственно статистически значимыми. Есть много способов добиться «более значительного» результата, включая, но не ограничиваясь:

  • анализ только «интересного» подмножества данных , в котором был найден паттерн;
  • отсутствие правильной настройки для многократного тестирования , особенно после специального тестирования, и отсутствие отчета о проведенных тестах, которые не были значительными;
  • пробовать разные тесты одной и той же гипотезы , например, как параметрический, так и непараметрический тест (об этом есть обсуждение в этой теме ), но сообщать только о наиболее значимых;
  • экспериментируя с включением / исключением точек данных , пока не будет получен желаемый результат. Одна возможность появляется, когда «выбросы при очистке данных», а также при применении неоднозначного определения (например, в эконометрическом исследовании «развитых стран», разные определения дают разные наборы стран) или качественные критерии включения (например, в метаанализе). , это может быть точно сбалансированный аргумент, является ли методология конкретного исследования достаточно надежной для включения);
  • предыдущий пример связан с необязательной остановкой , т. е. анализом набора данных и принятием решения о том, собирать ли больше данных или нет, в зависимости от собранных данных («это почти значимо, давайте измерим еще трех студентов!») без учета этого в анализе;
  • экспериментирование во время подбора модели , особенно ковариат для включения, но также в отношении преобразования данных / функциональной формы.

Итак, мы знаем, что p- хакерство может быть сделано. Он часто упоминается как одна из «опасностей p- значения» и упоминается в отчете ASA о статистической значимости, который обсуждается здесь при перекрестной проверке , поэтому мы также знаем, что это плохо. Хотя некоторые сомнительные мотивы и (особенно в конкурсе на академическую публикацию) контрпродуктивные стимулы очевидны, я подозреваю, что трудно понять, почему это сделано, будь то преднамеренная халатность или простое невежество. Кто-то сообщает о p-значениях из ступенчатой ​​регрессии (потому что они находят ступенчатые процедуры, «производящие хорошие модели», но не знают предполагаемого p-значения аннулируются) находится в последнем лагере, но эффект все равно р -hacking под последним из моих пунктов маркированных выше.

Несомненно, есть доказательства того, что p- хакерство «существует», например, Head et al (2015) ищет контрольные признаки того, что он заражает научную литературу, но каково текущее состояние нашей доказательной базы по этому поводу? Я знаю, что подход, использованный Head et al, не обошелся без противоречий, поэтому текущее состояние литературы или общее мышление в академическом сообществе было бы интересно. Например, есть ли у нас представление о:

  • Насколько он распространен и в какой степени мы можем отличить его появление от предвзятости публикации ? (Является ли это различие даже значимым?)
  • p0.05p0.01
  • Различаются ли схемы в p- хакерстве между академическими областями?
  • Есть ли у нас представление о том, какие из механизмов p- хакерства (некоторые из которых перечислены в пунктах выше) наиболее распространены? Оказалось ли, что некоторые формы труднее обнаружить, чем другие, потому что они «лучше замаскированы»?

Рекомендации

Руководитель, ML, Холман, Л., Ланфир, Р., Кан, AT, & Jennions, MD (2015). Масштабы и последствия p- хакерства в науке . PLoS Biol , 13 (3), e1002106.

тарпон
источник
6
Ваш последний вопрос - хорошая идея для исследования: предоставьте некоторые необработанные данные группе исследователей из разных областей, снабдите их SPSS (или чем-то еще, что они используют), а затем запишите, что они делают, соревнуясь друг с другом для получения более значимых результатов. ,
Тим
1
Можно было бы сделать это без того, чтобы субъекты не знали, что это происходит, используя историю представлений в виде болтовни. Они не публикуют, но пытаются всеми возможными способами попасть в магическое число.
EngrStudent
1
Есть ли у перекрестной проверки какие-либо коллекции (например, вики сообщества) простых примеров симуляции p-хакерства? Я представляю себе игрушечные примеры, в которых моделируемый исследователь реагирует на «незначительно значимые» результаты, собирая больше данных, эксперименты со спецификациями регрессии и т. Д.
Adrian
2
@Adrian CV - это сайт вопросов и ответов, он не содержит никаких данных или кода, не имеет скрытого хранилища - все, что вы найдете в ответах, принадлежит вам по лицензии CC :) Этот вопрос, похоже, задает вопрос о сборе таких примеров.
Тим
1
@ Конечно, я не представлял себе никаких скрытых репозиториев - только фрагменты кода, включенные в ответы. Например, кто-то может спросить «что такое p-хакерство?», А кто-то может включить игрушечную симуляцию R в свой ответ. Было бы уместно ответить на текущий вопрос с примерами кода? «Сколько мы знаем» - очень широкий вопрос.
Адриан

Ответы:

76

РЕЗЮМЕ: если «п-хакерство» следует понимать в широком смысле как пути разветвления ла Гельмана, ответ на вопрос, насколько он распространен, заключается в том, что он почти универсален.


p

Эту проблему иногда называют «р-хакерством» или «степенями свободы исследователя» (Simmons, Nelson, and Simonsohn, 2011). В недавней статье мы говорили о «рыболовных экспедициях [...]». Но мы начинаем чувствовать, что термин «рыбная ловля» был неудачным, поскольку он вызывает образ исследователя, пытающегося сравнивать после сравнения, бросая леску в озеро, пока рыба не поймалась. У нас нет оснований полагать, что исследователи регулярно это делают. Мы считаем, что реальная история заключается в том, что исследователи могут провести разумный анализ, учитывая их предположения и данные, но если бы данные оказались иными, они могли бы провести другие анализы, которые были бы столь же разумными в этих обстоятельствах.

Мы сожалеем о распространении терминов «рыбная ловля» и «р-хакерство» (и даже «степени свободы исследователя») по двум причинам: во-первых, потому что, когда такие термины используются для описания исследования, у исследователей есть обманчивое значение сознательно пробовали много разных анализов на одном наборе данных; и, во-вторых, потому что это может привести исследователей, которые знают, что они не пробовали много различных анализов, ошибочно думать, что они не так сильно подвержены проблемам степеней свободы исследователя. [...] Наш ключевой момент здесь заключается в том, что можно провести несколько потенциальных сравнений в смысле анализа данных, детали которых сильно зависят от данных, без проведения какой-либо сознательной процедуры промысла или изучения нескольких значений p ,

Итак: Гельману не нравится термин p-hacking, поскольку он подразумевает, что исследования активно обманывают. Принимая во внимание, что проблемы могут возникать просто потому, что исследователи выбирают, какой тест выполнять / сообщать после просмотра данных, т.е. после некоторого предварительного анализа.

p

Таким образом, если «р-хакерство» следует понимать в широком смысле как разветвления пути Гельмана, ответ на вопрос, насколько он распространен, заключается в том, что он почти универсален.

Единственными исключениями, которые приходят на ум, являются полностью предварительно зарегистрированные исследования по репликации в психологии или полностью предварительно зарегистрированные медицинские испытания.

Конкретные доказательства

Забавно, что некоторые люди опрашивали исследователей, чтобы выяснить, что многие признаются в совершении какого-то взлома ( John et al. 2012, Измерение распространенности сомнительных методов исследования с помощью стимулов для рассказа правды ):

Джон и др.

Кроме того, все слышали о так называемом «кризисе репликации» в психологии: более половины недавних исследований, опубликованных в ведущих психологических журналах, не воспроизводятся ( Nosek et al. 2015, Оценка воспроизводимости психологической науки ). (Это исследование недавно снова появилось во всех блогах, потому что мартовский выпуск журнала Science 2016 года опубликовал комментарий, в котором опровергается Носек и др., А также ответ Носека и др. Обсуждение продолжилось в другом месте, см. Сообщение Эндрю Гельмана и RetractionWatch пост, на который он ссылается. Говоря вежливо, критика неубедительна.)

Обновление от ноября 2018 г .: Каплан и Ирвин, 2017 г. Вероятность нулевых эффектов больших клинических испытаний НХЛБИ с течением времени показывает, что доля клинических испытаний, сообщивших об нулевых результатах, увеличилась с 43% до 92% после того, как стала обязательной предварительная регистрация:

введите описание изображения здесь


P

Head et al. 2015

Я не слышал о Head et al. учиться раньше, но теперь потратил некоторое время на просмотр окружающей литературы. Я также кратко рассмотрел их необработанные данные .

p=ap<a00.06

Распределение р-значений в литературе

0.0001pp(0.045,0.5)(0.04,0.045)p

p=0.05p=0.048p=0.052p0.05

И кроме того, эффект крошечный .

p0.05

p

p=0.04p=0.05p

p

ptFχ2

Бумага Hartgerink PeerJ

pp

Кравчик

p=0.05p0.05p

Машикампо и Лаланде

p

Машикампо и Лаланде

Это действительно выглядит впечатляюще, но Lakens 2015 ( препринт ) в опубликованном Комментарии утверждает , что это только кажется внушительными благодаря недостоверной экспоненциальной подгонке. См. Также Lakens 2015, «О трудностях с выводом выводов из значений р чуть ниже 0,05» и ссылок в них.

экономика

zp

Бродо

ppp<0.05


Ложно обнадеживает?

ppp0.050.05

Ури Симонсон утверждает, что это «ложно обнадеживает» . Ну, на самом деле он цитирует эти статьи некритически, но затем замечает, что «большинство значений р намного меньше», чем 0,05. Затем он говорит: «Это обнадеживает, но ложно обнадеживает». И вот почему:

Если мы хотим знать, взломали ли исследователи свои результаты, нам нужно изучить p-значения, связанные с их результатами, те, которые они, возможно, захотят взломать в первую очередь. Образцы, чтобы быть беспристрастными, должны включать в себя только наблюдения от населения, представляющего интерес.

Большинство значений p, о которых сообщается в большинстве работ, не имеют отношения к интересующему стратегическому поведению. Ковариаты, проверки манипуляций, основные эффекты в исследованиях, тестирующих взаимодействия, и т. Д. Включая их, мы недооцениваем p-хакерство и переоцениваем доказательную ценность данных. Анализ всех p-значений ставит другой вопрос, менее разумный. Вместо того, чтобы «Исследуют ли исследователи, что они изучают?», Мы спрашиваем: «Исследуют ли исследователи все что угодно?»

pppp

Simonsohn

p

Выводы

pp p0.05

амеба говорит восстановить монику
источник
4
simply because the researches chose what test to perform/report after looking at the dataДа; и проблема неизбежна, потому что обоюдоострый. Когда для данных выбирается лучший метод - это переоснащение этой конкретной выборки или встреча технических вызовов этой группы населения? Или - удаляя выбросы - это фальсифицирует население или восстанавливает его? Кто скажет, в конце концов?
ttnphns
Ответ, на который я больше всего надеялся, был, возможно, кратким представлением текущей литературы, некоторыми указаниями относительно того, является ли статья Head et al кратким изложением последних мыслей и т. Д. Я вообще не ожидал такого ответа. Но я думаю, что это здорово, а мысли Гельмана и практические идеи особенно полезны. Когда я писал вопрос, я имел в виду нечто похожее на @ttnphns (возможно, это показывает, что я даже подумывал включить слово «переоснащение».)
Silverfish
Тем не менее, помимо общего и неизбежного недомогания того, как «наука работает на практике» является несовершенным совпадением с допущениями статистического тестирования, я действительно задаюсь вопросом, действительно ли это чудовищное «темное искусство злостных p-хакеров» действительно существует, и если это так, то насколько далеко оно доходит. Есть определенно сильные (неправильные) стимулы, чтобы поощрять это.
Серебряная рыбка
2
Вы заинтересовали меня этим Head и соавт. газета, @Silverfish, поэтому я должен признаться, что прямо сейчас, вместо того, чтобы работать, я просматриваю некоторые бумаги, критикующие результаты Head и др., и даже уже загрузил их необработанные данные ... О, боже.
говорит амеба: восстанови монику
2
+1. Последняя статья в блоге Гельмана ( andrewgelman.com/2016/03/09/… ) охватывает много вопросов и подчеркивает интересное возражение группы, которая пыталась выполнить репликацию, а затем подверглась резкой критике со стороны авторов оригинального исследования: retractionwatch.com/ 2016/03/07 /…
Уэйн
22

Графики воронки были огромным статистическим новшеством, которое перевернуло метаанализ с ног на голову. В основном, воронкообразный график показывает клиническую и статистическую значимость на одном графике. В идеале они должны образовывать форму воронки. Тем не менее, в результате нескольких метаанализов были получены графики воронок, которые демонстрируют сильную бимодальную форму, когда исследователи (или издатели) выборочно скрывали результаты, которые были нулевыми. В результате треугольник становится шире, потому что в небольших, менее мощных исследованиях использовались более радикальные методы для «поощрения» результатов к достижению статистической значимости. Команда Cochrane Report может сказать о них следующее .

Если имеется смещение, например, из-за того, что меньшие исследования без статистически значимых эффектов (показаны в виде кружков на рисунке 10.4.a, панель A) остаются неопубликованными, это приведет к асимметричному появлению воронкообразного графика с зазором в нижнем углу. график (Панель B). В этой ситуации эффект, рассчитанный в метаанализе, будет склонен переоценивать эффект вмешательства (Egger 1997a, Villar 1997). Чем более выражена асимметрия, тем больше вероятность того, что величина смещения будет существенной.

Первый график показывает симметричный график при отсутствии смещения. На втором изображен асимметричный график при наличии систематической ошибки. Третий демонстрирует асимметричный график при наличии систематической ошибки, поскольку некоторые более мелкие исследования (незакрашенные кружки) имеют более низкое методологическое качество и, следовательно, дают завышенные оценки эффекта вмешательства.

введите описание изображения здесь

введите описание изображения здесь

введите описание изображения здесь

Я подозреваю, что большинство авторов не знают о методах, которые они используют для p-hack. Они не отслеживают общее количество подходящих моделей, применяя разные критерии исключения или каждый раз выбирая разные корректирующие переменные. Тем не менее, если бы мне пришлось поручить простой процесс, я хотел бы видеть общее количество моделей подходят. Это не означает, что могут быть законные причины для повторного запуска моделей, например, мы только что провели анализ болезни Альцгеймера, не зная, что ApoE был собран в выборке. Яйцо на моем лице, мы перезапускаем модели.

Adamo
источник
4
2
Одним из аспектов моего вопроса было различие между «р-хакингом» и «предвзятостью публикации» - этот ответ в некотором роде объединяет оба. Правильно ли я истолковал бы то, что вы говорите таким образом, то есть «предвзятость публикации - по сути, форма p-хакерства, но издателем»?
Серебряная рыба
1
pp
2
Хм. Сначала я хотел опротестовать и заявить, что предвзятость публикации отличается от p-хакерства (я думаю, аналогично тому, как @Silverfish подставил и его Q), но потом я понял, что провести границу гораздо сложнее, чем я думал вначале. Выполнение множественных сравнений в стиле желейных бобов и представление только значимых (p-hacking?) Мало чем отличается от выполнения множественных исследований и только представления значимых (что является предвзятостью публикации по определению). Тем не менее, р-хакерство в смысле массирования данных до тех пор, пока они не дадут р <0,05, кажется мне совершенно другим.
амеба говорит восстановить монику
2
pp