Представьте, что исследователь исследует набор данных и запускает 1000 различных регрессий, и он обнаруживает одну интересную связь между ними.
Теперь представьте, что другой исследователь с такими же данными запускает всего 1 регрессию, и оказывается, что это тот же самый, что другой исследователь взял 1000 регрессий, чтобы найти. Исследователь 2 не знает исследователя 1.
Должен ли исследователь 1 делать другие выводы, чем исследователь 2? Почему? Например, должен ли исследователь 1 выполнять коррекцию множественных сравнений, а исследователь 2 - нет?
Если бы исследователь 2 сначала показал вам свою единственную регрессию, какие выводы вы бы сделали? Если после этого исследователь 1 показал вам свои результаты, должны ли вы изменить свой вывод? Если так, почему это должно иметь значение?
PS 1 : Если разговоры о гипотетических исследователях делают проблему абстрактной, подумайте об этом: представьте, что вы выполнили только одну регрессию для своей статьи, используя лучший доступный метод. Затем другой исследователь изучил 1000 различных регрессий с одними и теми же данными, пока не обнаружил точно такую же регрессию, которую вы использовали . Должны ли вы двое делать разные выводы? Являются ли доказательства одинаковыми для обоих случаев или нет? Если вы измените свой вывод, если вы знали результаты других исследователей? Как общественность должна оценивать доказательства двух исследований?
PS 2: пожалуйста, постарайтесь быть конкретными и предоставить математическое / теоретическое обоснование, если это возможно!
источник
Ответы:
Нет ничего принципиально неправильного в том, что два человека начинают с разной информации и продолжают делать разные выводы после просмотра одних и тех же данных. Однако ... просмотр одних и тех же данных сблизит их, при условии, что их «модельное пространство» перекрывается и данные поддерживают эту «перекрывающуюся область».
источник
Статистическая интерпретация гораздо менее ясна, чем то, о чем вы просите, математическая обработка.
Математика о четко определенных проблемах. Например, бросать идеальные кости или рисовать шарики из урны.
Статистика - это прикладная математика, в которой математика служит руководством, но не является (точным) решением.
В этом случае очевидно, что обстоятельства играют важную роль. Если мы выполним регрессию, а затем вычислим (математику) некоторое значение p, чтобы выразить силу, то какова интерпретация (статистика) и значение значения p?
В случае 1000 регрессий, выполненных исследователем 1, результат намного слабее, поскольку ситуация такого типа возникает, когда мы на самом деле не имеем понятия, а просто изучаем данные. Значение p является просто признаком того, что может быть что-то.
Таким образом, значение p, очевидно, меньше стоит в регрессии, выполненной исследователем 1. И если исследователь 1 или кто-либо, использующий результаты исследования 1, хотели бы что-то сделать с регрессией, тогда значение p необходимо скорректировать. (и если вы считаете, что разницы между исследователем 1 и исследователем 2 недостаточно, просто подумайте о множестве способов, которыми исследователь 1 может скорректировать значение p для нескольких сравнений)
В случае единственной регрессии, выполненной исследователем 2, результат является гораздо более убедительным доказательством. Но это потому, что регрессия не стоит сама по себе. Мы должны указать причины, по которым исследователь 2 провел только одну регрессию. Это может быть потому, что у него были веские (дополнительные) причины полагать, что единственная регрессия является хорошей моделью для данных.
Настройка регрессий, выполняемых исследователями 1 и 2, сильно отличается, и не часто вы сталкиваетесь с обоими одновременно в одной и той же проблеме. Если это так, то либо
Исследователь 2 очень повезло
Это не так уж редко, и мы должны лучше исправить это при интерпретации литературы, а также мы должны улучшить публикацию общей картины исследования. Если есть тысяча исследователей, подобных исследователю 2, и мы увидим, как только один из них опубликует успех, то, поскольку мы не увидели неудач других 999 исследователей, мы можем ошибочно полагать, что у нас не было случая, подобного исследователю 1
Исследователь 1 был не так умен и выполнил невероятный поиск какой-то регрессии, хотя с самого начала он, возможно, знал, что это должен был быть один, и он мог бы провести более сильный тест.
Для посторонних, которые умнее исследователя 1 (не заботятся о дополнительных 999 регрессиях с самого начала) и читающих о работе, они могут придать больше значения значимости результатов, но все же не так сильно, как он бы сделал для Результаты исследования 2.
Хотя исследователь 1, возможно, был слишком консервативен при исправлении 999 лишних дополнительных регрессий, мы не можем игнорировать тот факт, что исследование проводилось в вакууме знаний, и гораздо больше шансов найти счастливого исследователя типа 1, чем типа 2.
Интересная связанная история: в астрономии, когда они планировали лучший инструмент для измерения космического фона с более высокой точностью, были исследователи, которые утверждали, что выпустят только половину данных. Это потому, что есть только один снимок для сбора данных. После того, как все регрессии были выполнены десятками различных исследователей (и из-за невероятных вариаций и креативности теоретика, безусловно, есть некоторая подгонка к каждому возможному, случайному, удару в данных), нет возможности выполнить новый эксперимент для проверки (то есть, если вы не в состоянии создать целую новую вселенную).
источник
Короткая история: у нас недостаточно информации, чтобы ответить на ваш вопрос, потому что мы ничего не знаем об используемых методах или собранных данных.
Длинный ответ ... Реальный вопрос здесь заключается в том, что делает каждый исследователь:
Их методы будут определять силу интерпретации их результатов. Это потому, что некоторые методы менее надежны, чем другие.
В строгой науке мы разрабатываем гипотезу, выявляем смешанные переменные, разрабатываем элементы управления для переменных вне нашей гипотезы, планируем методы испытаний, планируем нашу аналитическую методологию, выполняем тесты / собираем данные, а затем анализируем данные. (Обратите внимание, что аналитические методы планируются до проведения теста). Это самое строгое, потому что мы должны принять данные и анализ, которые не согласуются с гипотезой. Недопустимо менять методы по факту, чтобы получить что-то интересное. Любая новая гипотеза из результатов должна пройти через тот же процесс снова.
В лженауке мы часто берем данные, которые уже собраны. Это сложнее в этическом плане, потому что к результатам проще добавить отклонения. Тем не менее, все еще возможно следовать научному методу для этических аналитиков. Хотя может быть трудно установить надлежащий контроль, и это должно быть исследовано и отмечено.
Исследование данных не основано на науке. Там нет конкретной гипотезы. Не существует априорной оценки смешанных факторов. Кроме того, трудно вернуться и повторно выполнить анализ, используя те же данные, потому что результаты могут быть испорчены предшествующими знаниями или моделированием, и нет новых данных, которые можно использовать для проверки. Рекомендуется провести строгий научный эксперимент, чтобы прояснить возможные связи, найденные в результате поискового анализа.
Дноуглубление данных или P-хакерство - это когда аналитик проводит несколько тестов в надежде получить неожиданный или неизвестный ответ или манипулирует данными, чтобы получить результат. Результаты могут быть простым совпадением, могут быть результатом смешанной переменной (ей) или могут не иметь значимого эффекта или размера.
Есть некоторые средства для каждой проблемы, но эти средства должны быть тщательно оценены.
источник