Хорошо известно, что исследователи должны тратить время на наблюдение и изучение существующих данных и исследований, прежде чем формировать гипотезу, а затем собирать данные для проверки этой гипотезы (имея в виду проверку значимости нулевой гипотезы). Многие основные статистические книги предупреждают, что гипотезы должны быть сформированы априори и не могут быть изменены после сбора данных, в противном случае методология становится недействительной.
Я понимаю, что одной из причин, по которой изменение гипотезы для соответствия наблюдаемым данным является проблематичной, является большая вероятность совершения ошибки типа I из-за ложных данных, но мой вопрос: это единственная причина или есть другие фундаментальные проблемы с в рыболовной экспедиции?
В качестве дополнительного вопроса, есть ли способы пойти на рыбалку, не подвергая себя потенциальным ловушкам? Например, если у вас достаточно данных, можете ли вы сгенерировать гипотезы из половины данных, а затем использовать другую половину для их проверки?
Обновить
Я ценю интерес к моему вопросу, но ответы и комментарии в основном направлены на то, что, как я думал, я установил в качестве справочной информации. Мне интересно узнать, есть ли другие причины, по которым это плохо, помимо высокой вероятности ложных результатов и есть ли способы, такие как сначала разделение данных, изменить гипотезу постфактум, но избежать увеличения количества ошибок типа I.
Я обновил название, чтобы, надеюсь, отразить суть моего вопроса.
Спасибо, и извините за путаницу!
источник
Ответы:
Конечно, вы можете отправиться на рыбалку, если вы признаете, что это рыбалка, и относитесь к ней как к таковой. Более хорошее название для этого - «исследовательский анализ данных».
Лучшей аналогией может быть стрельба по цели:
Вы можете стрелять по цели и праздновать, если попадаете в глаз быков.
Вы можете стрелять без цели, чтобы проверить свойства своего оружия.
Но обманывать стрелять в стену, а затем рисовать цель вокруг пулевого отверстия.
Один из способов избежать некоторых проблем с этим - выполнить исследование в наборе обучающих данных, а затем протестировать его на отдельном «тестовом» наборе данных.
источник
But it's cheating to shoot at a wall and then paint a target around the bullet hole.
Проблема с рыболовными экспедициями заключается в следующем: если вы проверите достаточно гипотез, одна из них будет подтверждена с низким значением p. Позвольте мне привести конкретный пример.
Представьте, что вы проводите эпидемиологическое исследование. Вы нашли 1000 пациентов, которые страдают от редкого заболевания. Вы хотите знать, что у них общего. Итак, вы начинаете тестирование - вы хотите увидеть, чрезмерно ли представлена конкретная характеристика в этом образце. Сначала вы проверяете пол, расу, определенную семейную историю (отец умер от болезни сердца до 50 лет,…), но в конце концов, когда у вас возникают проблемы с поиском чего-либо, что «прилипает», вы начинаете добавлять все виды других факторов, которые просто может относиться к заболеванию:
...
Теперь вот вещь. Если я выберу достаточное количество «случайных» гипотез, то становится вероятным, что хотя бы одна из них приведет к значению ap меньше 0,05 - потому что самой сущностью значения p является «вероятность ошибочности отклонения нулевой гипотезы, когда не влияет ". Иными словами - в среднем, на каждые 20 поддельных гипотез, которые вы тестируете, одна из них даст вам ap <0,05 .
Это очень хорошо изложено в мультфильме XKCD http://xkcd.com/882/ :
Трагедия заключается в том, что даже если отдельный автор не выполняет 20 различных тестов гипотез на выборке, чтобы найти значимость, возможно, 19 других авторов делают то же самое; и тот, кто «находит» корреляцию, теперь должен написать интересную статью, и тот, который, вероятно, будет принят для публикации…
Это приводит к печальной тенденции к невоспроизводимым результатам. Лучший способ защититься от этого как отдельного автора - установить планку выше. Вместо того, чтобы проверять отдельный фактор, спросите себя: «Если я проверяю N гипотез, какова вероятность того, что получится хотя бы один ложноположительный результат». Когда вы действительно проверяете «рыболовные гипотезы», вы можете подумать о внесении поправки Бонферрони, чтобы защититься от этого - но люди часто этого не делают.
Д-р Иоаннидес опубликовал несколько интересных статей, опубликованных специально для этой темы в «Атлантическом месяце» .
Смотрите также этот предыдущий вопрос с несколькими проницательными ответами.
Обновление, чтобы лучше ответить на все аспекты вашего вопроса:
Если вы боитесь, что вы можете «ловить рыбу», но вы действительно не знаете, какую гипотезу сформулировать, вы определенно можете разделить свои данные на разделы «разведка», «репликация» и «подтверждение». В принципе, это должно ограничить вашу подверженность рискам, описанным ранее: если у вас есть значение р 0,05 в данных разведки, и вы получаете аналогичное значение в данных репликации и подтверждения, ваш риск ошибиться снижается. Хороший пример «сделать все правильно» был показан в Британском медицинском журнале (очень уважаемая публикация с импакт-фактором 17+)
Изучение и подтверждение факторов, связанных с неосложненной беременностью у неродившихся женщин: проспективное когортное исследование, Chappell et al.
Вот соответствующий параграф:
Возвращаясь немного к литературе, есть хорошая статья Альтмана и др., Озаглавленная «Прогнозирование и прогностические исследования: проверка прогностической модели», которая углубляется в глубину и предлагает способы убедиться, что вы не впадаете в эта ошибка. «Основные моменты» из статьи:
В частности, обратите внимание на предложение о том, что проверка должна быть проведена (я перефразирую) с данными из других источников - т.е. недостаточно разделить ваши данные произвольно на подмножества, но вы должны сделать все возможное, чтобы доказать, что «обучение» на множестве из одного набора экспериментов можно применять к данным из другого набора экспериментов. Это более высокая планка, но она дополнительно снижает риск того, что систематическое смещение в вашей настройке приведет к «результатам», которые невозможно проверить независимо.
Это очень важный вопрос - спасибо за вопрос!
источник
Вопрос спрашивает, существуют ли другие проблемы, кроме инфляции ошибки типа I, которые идут с рыболовными экспедициями.
Ошибка типа I возникает, когда вы отклоняете нулевую гипотезу (как правило, безрезультатно), когда она верна. Обобщение, относящееся к ошибкам типа I, но не совсем то же самое, заключается в том, что даже когда нулевое значение является ложным (т. Е. Имеется некоторый эффект), промысловые экспедиции приводят к завышению размера (и, следовательно, важности) обнаруженных эффектов. Другими словами, когда вы не смотрите на конкретную переменную, а смотрите на все и сосредотачиваете свое внимание на том, что является самым большим эффектом, вы обнаружите, что эффекты не могут быть равны , но имеют тенденцию казаться больше, чем они есть. Пример этого можно увидеть в моем ответе: Алгоритмы автоматического выбора модели .0
источник