Фраза p- взлома (также: «выемка данных» , «отслеживание» или «промысел») относится к различным видам статистической халатности, в которой результаты становятся искусственно статистически значимыми. Есть много способов добиться «более значительного» результата, включая, но не ограничиваясь:
- анализ только «интересного» подмножества данных , в котором был найден паттерн;
- отсутствие правильной настройки для многократного тестирования , особенно после специального тестирования, и отсутствие отчета о проведенных тестах, которые не были значительными;
- пробовать разные тесты одной и той же гипотезы , например, как параметрический, так и непараметрический тест (об этом есть обсуждение в этой теме ), но сообщать только о наиболее значимых;
- экспериментируя с включением / исключением точек данных , пока не будет получен желаемый результат. Одна возможность появляется, когда «выбросы при очистке данных», а также при применении неоднозначного определения (например, в эконометрическом исследовании «развитых стран», разные определения дают разные наборы стран) или качественные критерии включения (например, в метаанализе). , это может быть точно сбалансированный аргумент, является ли методология конкретного исследования достаточно надежной для включения);
- предыдущий пример связан с необязательной остановкой , т. е. анализом набора данных и принятием решения о том, собирать ли больше данных или нет, в зависимости от собранных данных («это почти значимо, давайте измерим еще трех студентов!») без учета этого в анализе;
- экспериментирование во время подбора модели , особенно ковариат для включения, но также в отношении преобразования данных / функциональной формы.
Итак, мы знаем, что p- хакерство может быть сделано. Он часто упоминается как одна из «опасностей p- значения» и упоминается в отчете ASA о статистической значимости, который обсуждается здесь при перекрестной проверке , поэтому мы также знаем, что это плохо. Хотя некоторые сомнительные мотивы и (особенно в конкурсе на академическую публикацию) контрпродуктивные стимулы очевидны, я подозреваю, что трудно понять, почему это сделано, будь то преднамеренная халатность или простое невежество. Кто-то сообщает о p-значениях из ступенчатой регрессии (потому что они находят ступенчатые процедуры, «производящие хорошие модели», но не знают предполагаемого p-значения аннулируются) находится в последнем лагере, но эффект все равно р -hacking под последним из моих пунктов маркированных выше.
Несомненно, есть доказательства того, что p- хакерство «существует», например, Head et al (2015) ищет контрольные признаки того, что он заражает научную литературу, но каково текущее состояние нашей доказательной базы по этому поводу? Я знаю, что подход, использованный Head et al, не обошелся без противоречий, поэтому текущее состояние литературы или общее мышление в академическом сообществе было бы интересно. Например, есть ли у нас представление о:
- Насколько он распространен и в какой степени мы можем отличить его появление от предвзятости публикации ? (Является ли это различие даже значимым?)
- Различаются ли схемы в p- хакерстве между академическими областями?
- Есть ли у нас представление о том, какие из механизмов p- хакерства (некоторые из которых перечислены в пунктах выше) наиболее распространены? Оказалось ли, что некоторые формы труднее обнаружить, чем другие, потому что они «лучше замаскированы»?
Рекомендации
Руководитель, ML, Холман, Л., Ланфир, Р., Кан, AT, & Jennions, MD (2015). Масштабы и последствия p- хакерства в науке . PLoS Biol , 13 (3), e1002106.
Ответы:
РЕЗЮМЕ: если «п-хакерство» следует понимать в широком смысле как пути разветвления ла Гельмана, ответ на вопрос, насколько он распространен, заключается в том, что он почти универсален.
Итак: Гельману не нравится термин p-hacking, поскольку он подразумевает, что исследования активно обманывают. Принимая во внимание, что проблемы могут возникать просто потому, что исследователи выбирают, какой тест выполнять / сообщать после просмотра данных, т.е. после некоторого предварительного анализа.
Таким образом, если «р-хакерство» следует понимать в широком смысле как разветвления пути Гельмана, ответ на вопрос, насколько он распространен, заключается в том, что он почти универсален.
Единственными исключениями, которые приходят на ум, являются полностью предварительно зарегистрированные исследования по репликации в психологии или полностью предварительно зарегистрированные медицинские испытания.
Конкретные доказательства
Забавно, что некоторые люди опрашивали исследователей, чтобы выяснить, что многие признаются в совершении какого-то взлома ( John et al. 2012, Измерение распространенности сомнительных методов исследования с помощью стимулов для рассказа правды ):
Кроме того, все слышали о так называемом «кризисе репликации» в психологии: более половины недавних исследований, опубликованных в ведущих психологических журналах, не воспроизводятся ( Nosek et al. 2015, Оценка воспроизводимости психологической науки ). (Это исследование недавно снова появилось во всех блогах, потому что мартовский выпуск журнала Science 2016 года опубликовал комментарий, в котором опровергается Носек и др., А также ответ Носека и др. Обсуждение продолжилось в другом месте, см. Сообщение Эндрю Гельмана и RetractionWatch пост, на который он ссылается. Говоря вежливо, критика неубедительна.)
Обновление от ноября 2018 г .: Каплан и Ирвин, 2017 г. Вероятность нулевых эффектов больших клинических испытаний НХЛБИ с течением времени показывает, что доля клинических испытаний, сообщивших об нулевых результатах, увеличилась с 43% до 92% после того, как стала обязательной предварительная регистрация:
Head et al. 2015
Я не слышал о Head et al. учиться раньше, но теперь потратил некоторое время на просмотр окружающей литературы. Я также кратко рассмотрел их необработанные данные .
И кроме того, эффект крошечный .
Машикампо и Лаланде
Это действительно выглядит впечатляюще, но Lakens 2015 ( препринт ) в опубликованном Комментарии утверждает , что это только кажется внушительными благодаря недостоверной экспоненциальной подгонке. См. Также Lakens 2015, «О трудностях с выводом выводов из значений р чуть ниже 0,05» и ссылок в них.
экономика
Ложно обнадеживает?
Ури Симонсон утверждает, что это «ложно обнадеживает» . Ну, на самом деле он цитирует эти статьи некритически, но затем замечает, что «большинство значений р намного меньше», чем 0,05. Затем он говорит: «Это обнадеживает, но ложно обнадеживает». И вот почему:
Выводы
источник
simply because the researches chose what test to perform/report after looking at the data
Да; и проблема неизбежна, потому что обоюдоострый. Когда для данных выбирается лучший метод - это переоснащение этой конкретной выборки или встреча технических вызовов этой группы населения? Или - удаляя выбросы - это фальсифицирует население или восстанавливает его? Кто скажет, в конце концов?Графики воронки были огромным статистическим новшеством, которое перевернуло метаанализ с ног на голову. В основном, воронкообразный график показывает клиническую и статистическую значимость на одном графике. В идеале они должны образовывать форму воронки. Тем не менее, в результате нескольких метаанализов были получены графики воронок, которые демонстрируют сильную бимодальную форму, когда исследователи (или издатели) выборочно скрывали результаты, которые были нулевыми. В результате треугольник становится шире, потому что в небольших, менее мощных исследованиях использовались более радикальные методы для «поощрения» результатов к достижению статистической значимости. Команда Cochrane Report может сказать о них следующее .
Первый график показывает симметричный график при отсутствии смещения. На втором изображен асимметричный график при наличии систематической ошибки. Третий демонстрирует асимметричный график при наличии систематической ошибки, поскольку некоторые более мелкие исследования (незакрашенные кружки) имеют более низкое методологическое качество и, следовательно, дают завышенные оценки эффекта вмешательства.
Я подозреваю, что большинство авторов не знают о методах, которые они используют для p-hack. Они не отслеживают общее количество подходящих моделей, применяя разные критерии исключения или каждый раз выбирая разные корректирующие переменные. Тем не менее, если бы мне пришлось поручить простой процесс, я хотел бы видеть общее количество моделей подходят. Это не означает, что могут быть законные причины для повторного запуска моделей, например, мы только что провели анализ болезни Альцгеймера, не зная, что ApoE был собран в выборке. Яйцо на моем лице, мы перезапускаем модели.
источник