Можно ли изменить гипотезу, чтобы она соответствовала наблюдаемым данным (иначе говоря, промысловая экспедиция) и избежать увеличения ошибок типа I?

32

Хорошо известно, что исследователи должны тратить время на наблюдение и изучение существующих данных и исследований, прежде чем формировать гипотезу, а затем собирать данные для проверки этой гипотезы (имея в виду проверку значимости нулевой гипотезы). Многие основные статистические книги предупреждают, что гипотезы должны быть сформированы априори и не могут быть изменены после сбора данных, в противном случае методология становится недействительной.

Я понимаю, что одной из причин, по которой изменение гипотезы для соответствия наблюдаемым данным является проблематичной, является большая вероятность совершения ошибки типа I из-за ложных данных, но мой вопрос: это единственная причина или есть другие фундаментальные проблемы с в рыболовной экспедиции?

В качестве дополнительного вопроса, есть ли способы пойти на рыбалку, не подвергая себя потенциальным ловушкам? Например, если у вас достаточно данных, можете ли вы сгенерировать гипотезы из половины данных, а затем использовать другую половину для их проверки?

Обновить

Я ценю интерес к моему вопросу, но ответы и комментарии в основном направлены на то, что, как я думал, я установил в качестве справочной информации. Мне интересно узнать, есть ли другие причины, по которым это плохо, помимо высокой вероятности ложных результатов и есть ли способы, такие как сначала разделение данных, изменить гипотезу постфактум, но избежать увеличения количества ошибок типа I.

Я обновил название, чтобы, надеюсь, отразить суть моего вопроса.

Спасибо, и извините за путаницу!

ретроспективном
источник
7
Прочитайте это: people.psych.cornell.edu/~jec7/pcd%20pubs/simmonsetal11.pdf
июнь
1
Взять другую точку зрения на то, что уже было сказано: суть научного метода состоит в том, чтобы выдвигать гипотезы, а затем пытаться их фальсифицировать, чтобы они могли стать теориями (если фальсификация не удалась). Отправиться в рыболовную экспедицию - это правильный способ найти гипотезы, которые стоит фальсифицировать в более позднем эксперименте, но вы никогда не сможете сделать и попытаться фальсифицировать гипотезу за один раз. В частности, если вы открыты для корректировки своей гипотезы, вы больше не пытаетесь ее фальсифицировать. Вместо этого, когда вы приспосабливаетесь, вы фальсифицируете свою нескорректированную гипотезу и формируете новую гипотезу.
Wrzlprmft
@jona, это отличная статья. Я уже читал статьи как Иоаннидиса, так и Шулера, но Симмонс и др. Прекрасно иллюстрируют эту проблему.
Временами
1
Мне интересно, найдете ли вы этот документ соответствующим вашему вопросу: stat.columbia.edu/~gelman/research/published/multiple2f.pdf . Это не совсем то же самое, но это касается одного аспекта.
a11msp
1
Данные могут заставить вас изменить свою гипотезу ... но в этом случае вам нужно начать сбор новых данных с нуля, чтобы подтвердить новую гипотезу.
Кешлам

Ответы:

54

Конечно, вы можете отправиться на рыбалку, если вы признаете, что это рыбалка, и относитесь к ней как к таковой. Более хорошее название для этого - «исследовательский анализ данных».

Лучшей аналогией может быть стрельба по цели:

Вы можете стрелять по цели и праздновать, если попадаете в глаз быков.

Вы можете стрелять без цели, чтобы проверить свойства своего оружия.

Но обманывать стрелять в стену, а затем рисовать цель вокруг пулевого отверстия.

Один из способов избежать некоторых проблем с этим - выполнить исследование в наборе обучающих данных, а затем протестировать его на отдельном «тестовом» наборе данных.

Питер Флом - Восстановить Монику
источник
13
Трудно улучшить ответ Питера. К сожалению, проблема, связанная с углублением данных, заключается в том, что авторы не допускают, что гипотезы не были полностью предопределены, т. Е. Не использовался термин «исследовательский». Многие, многие исследователи выкапывают данные, чтобы получить пригодный для публикации документ, и не предпринимают никаких попыток проверки (что часто их разочаровывает).
Фрэнк Харрелл
2
Пройдя дальше комментарий Фрэнка Харрелла: законно изучить некоторые данные и опубликовать интригующий вывод ... как интригующий, исследовательский вывод, который подлежит воспроизведению / проверке. Недостатком является то, что: если кто-то еще подтвердит ваши выводы, он вполне может получить славу, и если другие не подтвердят ваши результаты, вы были обмануты ложной корреляцией. Плохо, если у тебя большое эго. Не говоря уже о том, что вам нужно было бы сделать ваши данные и процедуры общедоступными, чего не сделали бы многие практики во многих областях. И вы должны следить за новыми данными, а не двигаться дальше.
Уэйн
11
+1But it's cheating to shoot at a wall and then paint a target around the bullet hole.
WernerCD
3
@ post-hoc хорошо, это не должно поднимать брови, но это может. Зависит от того, чьи глаза находятся под бровями!
Питер Флом - Восстановить Монику
2
Ошибка стрелка из
25

Проблема с рыболовными экспедициями заключается в следующем: если вы проверите достаточно гипотез, одна из них будет подтверждена с низким значением p. Позвольте мне привести конкретный пример.

Представьте, что вы проводите эпидемиологическое исследование. Вы нашли 1000 пациентов, которые страдают от редкого заболевания. Вы хотите знать, что у них общего. Итак, вы начинаете тестирование - вы хотите увидеть, чрезмерно ли представлена ​​конкретная характеристика в этом образце. Сначала вы проверяете пол, расу, определенную семейную историю (отец умер от болезни сердца до 50 лет,…), но в конце концов, когда у вас возникают проблемы с поиском чего-либо, что «прилипает», вы начинаете добавлять все виды других факторов, которые просто может относиться к заболеванию:

  • вегетарианец
  • путешествовал в Канаду
  • закончил колледж
  • Женат
  • имеет детей
  • есть кошки
  • есть собаки
  • выпивает не менее 5 стаканов красного вина в неделю
    ...

Теперь вот вещь. Если я выберу достаточное количество «случайных» гипотез, то становится вероятным, что хотя бы одна из них приведет к значению ap меньше 0,05 - потому что самой сущностью значения p является «вероятность ошибочности отклонения нулевой гипотезы, когда не влияет ". Иными словами - в среднем, на каждые 20 поддельных гипотез, которые вы тестируете, одна из них даст вам ap <0,05 .

Это очень хорошо изложено в мультфильме XKCD http://xkcd.com/882/ :

введите описание изображения здесь

Трагедия заключается в том, что даже если отдельный автор не выполняет 20 различных тестов гипотез на выборке, чтобы найти значимость, возможно, 19 других авторов делают то же самое; и тот, кто «находит» корреляцию, теперь должен написать интересную статью, и тот, который, вероятно, будет принят для публикации…

Это приводит к печальной тенденции к невоспроизводимым результатам. Лучший способ защититься от этого как отдельного автора - установить планку выше. Вместо того, чтобы проверять отдельный фактор, спросите себя: «Если я проверяю N гипотез, какова вероятность того, что получится хотя бы один ложноположительный результат». Когда вы действительно проверяете «рыболовные гипотезы», вы можете подумать о внесении поправки Бонферрони, чтобы защититься от этого - но люди часто этого не делают.

Д-р Иоаннидес опубликовал несколько интересных статей, опубликованных специально для этой темы в «Атлантическом месяце» .

Смотрите также этот предыдущий вопрос с несколькими проницательными ответами.

Обновление, чтобы лучше ответить на все аспекты вашего вопроса:

Если вы боитесь, что вы можете «ловить рыбу», но вы действительно не знаете, какую гипотезу сформулировать, вы определенно можете разделить свои данные на разделы «разведка», «репликация» и «подтверждение». В принципе, это должно ограничить вашу подверженность рискам, описанным ранее: если у вас есть значение р 0,05 в данных разведки, и вы получаете аналогичное значение в данных репликации и подтверждения, ваш риск ошибиться снижается. Хороший пример «сделать все правильно» был показан в Британском медицинском журнале (очень уважаемая публикация с импакт-фактором 17+)

Изучение и подтверждение факторов, связанных с неосложненной беременностью у неродившихся женщин: проспективное когортное исследование, Chappell et al.

Вот соответствующий параграф:

Мы разделили набор данных 5628 женщин на три части: набор данных разведки двух третей женщин из Австралии и Новой Зеландии, выбранных случайным образом (n = 2129); набор данных локальной репликации оставшейся трети женщин из Австралии и Новой Зеландии (n = 1067); и внешний, географически различный подтверждающий набор данных 2432 европейских женщин из Соединенного Королевства и Ирландской Республики.

Возвращаясь немного к литературе, есть хорошая статья Альтмана и др., Озаглавленная «Прогнозирование и прогностические исследования: проверка прогностической модели», которая углубляется в глубину и предлагает способы убедиться, что вы не впадаете в эта ошибка. «Основные моменты» из статьи:

Непроверенные модели не должны использоваться в клинической практике. При валидации прогностической модели следует оценивать калибровку и дискриминацию. Валидация должна проводиться на основе данных, отличных от тех, которые использовались для разработки модели, предпочтительно от пациентов в других центрах. Модели могут плохо работать на практике. из-за недостатков в методах разработки или потому, что новый образец слишком отличается от исходного

В частности, обратите внимание на предложение о том, что проверка должна быть проведена (я перефразирую) с данными из других источников - т.е. недостаточно разделить ваши данные произвольно на подмножества, но вы должны сделать все возможное, чтобы доказать, что «обучение» на множестве из одного набора экспериментов можно применять к данным из другого набора экспериментов. Это более высокая планка, но она дополнительно снижает риск того, что систематическое смещение в вашей настройке приведет к «результатам», которые невозможно проверить независимо.

Это очень важный вопрос - спасибо за вопрос!

Floris
источник
7
Это напоминает: xkcd.com/882
Дженс,
2
@jens - это гораздо более красноречивое объяснение, чем то, которое я дал ... Спасибо за эту ссылку. Как обычно - сделать наведите курсор мыши на мульт для маленького Зингер.
Флорис,
Иоаннид и статья Лерера были тем путем, который привел меня сюда. Ваш пример похож на пример в Simmons et al, упомянутый @jona. Это очень хороший способ объяснить повышенную вероятность ошибок типа I, но есть ли другие причины, почему это плохо?
Временами
1
Проблема с углублением данных в целом заключается в том, что вы рискуете спутать «корреляцию» с «причинностью». Приходя с разумной гипотезой первой , то подтверждением того, что это помогает объяснить наблюдения, ограничить риск запутать два. «Большие данные» часто идут другим путем - их образ действия - «если я проанализирую достаточно данных, я увижу паттерны, которые сохранялись в прошлом и будут сохраняться в будущем». Иногда это работает, иногда нет. Статистика никогда не должна заменять мышление и понимание - только подтверждение .
Флорис,
6
Я не думаю, что основной проблемой является корреляция против причинности. Легко делать паршивый корреляционный анализ, только чтобы обнаружить, что ассоциации не реплицируются.
Фрэнк Харрелл,
5

Вопрос спрашивает, существуют ли другие проблемы, кроме инфляции ошибки типа I, которые идут с рыболовными экспедициями.

Ошибка типа I возникает, когда вы отклоняете нулевую гипотезу (как правило, безрезультатно), когда она верна. Обобщение, относящееся к ошибкам типа I, но не совсем то же самое, заключается в том, что даже когда нулевое значение является ложным (т. Е. Имеется некоторый эффект), промысловые экспедиции приводят к завышению размера (и, следовательно, важности) обнаруженных эффектов. Другими словами, когда вы не смотрите на конкретную переменную, а смотрите на все и сосредотачиваете свое внимание на том, что является самым большим эффектом, вы обнаружите, что эффекты не могут быть равны , но имеют тенденцию казаться больше, чем они есть. Пример этого можно увидеть в моем ответе: Алгоритмы автоматического выбора модели . 0

Gung - Восстановить Монику
источник