Исследователь 1 запускает 1000 регрессий, исследователь 2 запускает только 1, оба получают одинаковые результаты - должны ли они делать разные выводы?

12

Представьте, что исследователь исследует набор данных и запускает 1000 различных регрессий, и он обнаруживает одну интересную связь между ними.

Теперь представьте, что другой исследователь с такими же данными запускает всего 1 регрессию, и оказывается, что это тот же самый, что другой исследователь взял 1000 регрессий, чтобы найти. Исследователь 2 не знает исследователя 1.

Должен ли исследователь 1 делать другие выводы, чем исследователь 2? Почему? Например, должен ли исследователь 1 выполнять коррекцию множественных сравнений, а исследователь 2 - нет?

Если бы исследователь 2 сначала показал вам свою единственную регрессию, какие выводы вы бы сделали? Если после этого исследователь 1 показал вам свои результаты, должны ли вы изменить свой вывод? Если так, почему это должно иметь значение?

PS 1 : Если разговоры о гипотетических исследователях делают проблему абстрактной, подумайте об этом: представьте, что вы выполнили только одну регрессию для своей статьи, используя лучший доступный метод. Затем другой исследователь изучил 1000 различных регрессий с одними и теми же данными, пока не обнаружил точно такую же регрессию, которую вы использовали . Должны ли вы двое делать разные выводы? Являются ли доказательства одинаковыми для обоих случаев или нет? Если вы измените свой вывод, если вы знали результаты других исследователей? Как общественность должна оценивать доказательства двух исследований?

PS 2: пожалуйста, постарайтесь быть конкретными и предоставить математическое / теоретическое обоснование, если это возможно!

statslearner
источник
1
Для правильного сравнения необходимо указать все нулевые и альтернативные гипотезы. Исследователь 2 может проверить только 1 гипотезу, в то время как Исследователь 1, вероятно, хочет контролировать вероятность того, что вы не сделаете ошибку 1 типа 1 из 1000. Если это одновременный вывод, который вы хотите сделать, то вы должны выполнить настройку p-значения. Исследователь 2 имеет один тест и не требует настройки. Для исследователя 1 подгоняете ли вы разные модели к одним и тем же данным или одну модель для каждого из 1000 наборов данных?
Майкл Р. Черник
1
@MichaelChernick есть только один набор данных. Исследователь 1 подбирает 1000 моделей для одного набора данных, пока не найдет ту, которая ему нравится. Исследователь 2 подходит только 1. Оба исследователя используют одни и те же данные. Так вы бы сказали, что этим двум исследователям придется делать разные выводы с одним и тем же набором данных? Исследователь 2 должен быть по праву уверен в своем анализе, в то время как исследователь 1 должен раздуть свои значения p / доверительные интервалы из-за множественных сравнений?
statslearner
Если вы следовали моему аргументу, они поступают в том смысле, что только исследователь 2 проверяет одну гипотезу, а исследователь 1 проверяет 1000 гипотез и должен контролировать все гипотезы, которые он проверял. Это связано с двумя различными проблемами. Что еще неясно, это то, что вы подразумеваете под «нахождением только одного интересного отношения». Может быть, вы думаете, что создали парадоксальную ситуацию. Я не думаю, что у вас есть.
Майкл Р. Черник
1
@MichaelChernick, как это не парадокс, если одни и те же данные с одной и той же моделью приводят к двум разным выводам? Если бы вы прочитали две отдельные статьи, что бы вы сделали вывод?
statslearner
1
@MichaelChernick Я сделал, и я нахожу тревожным, что вы думаете, что это правильно - точно такие же данные, с точно такой же моделью, что приводит к двум различным выводам. Смотрите мои комментарии на ответ.
statslearner

Ответы:

3

1000

P(Mk|I1)=11000P(M1|I2)=1M1

M1P(M1|DI)>>P(M1|I)9991M1100010000pvalue<108

100102,000,000

Нет ничего принципиально неправильного в том, что два человека начинают с разной информации и продолжают делать разные выводы после просмотра одних и тех же данных. Однако ... просмотр одних и тех же данных сблизит их, при условии, что их «модельное пространство» перекрывается и данные поддерживают эту «перекрывающуюся область».

probabilityislogic
источник
Итак, фундаментальная часть вашего утверждения состоит в том, что они должны делать разные выводы, потому что у них разные приоры, а не потому, что они «исследовали данные», верно?
statslearner
Кстати, как бы вы оценили доказательства? Вас не интересует, сколько моделей установлено исследователем 1? Если так, то почему?
statslearner
Мне не обязательно беспокоиться о количестве подходящих моделей, но о том, известна ли используемая модель с определенной степенью достоверности. Как я кратко упомянул, я хотел бы знать, были ли разумные альтернативы. Например, если бы исследователь 1 принял «линейное решение» об удалении / добавлении переменной, я бы хотел, чтобы это упоминалось.
вероятностная
1
Почему вы хотите увидеть упомянутое, это как-то изменит ваш предыдущий? Вы используете его в качестве прокси для вас ранее? Мне непонятно, какие карты вы делаете. Почему причины конкретного исследователя имеют значение для вашего вывода, так как это никак не влияет на процесс генерации данных?
statslearner
1
Мы рассматриваем этот набор данных как внешний для исследователя, он не собирал его, и оба исследователя используют одни и те же данные. Кажется, причины, по которым выводы не могут быть воспроизведены в психологии, заключаются в том, что они просто используют пороговые значения значимости в качестве стандарта доказательств для оценки нескольких сумасшедших гипотез, которые любой разумный человек / ученый сочтет их априори нелепыми. Возьмем, к примеру, нашу гипотезу, если гипотеза, проверенная в нашем примере, является чем-то нелепым, представляющим такую ​​мощь, будет ли иметь значение, использовали ли мы 1 или 1000 регрессий?
statslearner
7

Статистическая интерпретация гораздо менее ясна, чем то, о чем вы просите, математическая обработка.

Математика о четко определенных проблемах. Например, бросать идеальные кости или рисовать шарики из урны.

Статистика - это прикладная математика, в которой математика служит руководством, но не является (точным) решением.

В этом случае очевидно, что обстоятельства играют важную роль. Если мы выполним регрессию, а затем вычислим (математику) некоторое значение p, чтобы выразить силу, то какова интерпретация (статистика) и значение значения p?

  • В случае 1000 регрессий, выполненных исследователем 1, результат намного слабее, поскольку ситуация такого типа возникает, когда мы на самом деле не имеем понятия, а просто изучаем данные. Значение p является просто признаком того, что может быть что-то.

    Таким образом, значение p, очевидно, меньше стоит в регрессии, выполненной исследователем 1. И если исследователь 1 или кто-либо, использующий результаты исследования 1, хотели бы что-то сделать с регрессией, тогда значение p необходимо скорректировать. (и если вы считаете, что разницы между исследователем 1 и исследователем 2 недостаточно, просто подумайте о множестве способов, которыми исследователь 1 может скорректировать значение p для нескольких сравнений)

  • В случае единственной регрессии, выполненной исследователем 2, результат является гораздо более убедительным доказательством. Но это потому, что регрессия не стоит сама по себе. Мы должны указать причины, по которым исследователь 2 провел только одну регрессию. Это может быть потому, что у него были веские (дополнительные) причины полагать, что единственная регрессия является хорошей моделью для данных.

  • Настройка регрессий, выполняемых исследователями 1 и 2, сильно отличается, и не часто вы сталкиваетесь с обоими одновременно в одной и той же проблеме. Если это так, то либо

    • Исследователь 2 очень повезло

      Это не так уж редко, и мы должны лучше исправить это при интерпретации литературы, а также мы должны улучшить публикацию общей картины исследования. Если есть тысяча исследователей, подобных исследователю 2, и мы увидим, как только один из них опубликует успех, то, поскольку мы не увидели неудач других 999 исследователей, мы можем ошибочно полагать, что у нас не было случая, подобного исследователю 1

    • Исследователь 1 был не так умен и выполнил невероятный поиск какой-то регрессии, хотя с самого начала он, возможно, знал, что это должен был быть один, и он мог бы провести более сильный тест.

      Для посторонних, которые умнее исследователя 1 (не заботятся о дополнительных 999 регрессиях с самого начала) и читающих о работе, они могут придать больше значения значимости результатов, но все же не так сильно, как он бы сделал для Результаты исследования 2.

      Хотя исследователь 1, возможно, был слишком консервативен при исправлении 999 лишних дополнительных регрессий, мы не можем игнорировать тот факт, что исследование проводилось в вакууме знаний, и гораздо больше шансов найти счастливого исследователя типа 1, чем типа 2.

Интересная связанная история: в астрономии, когда они планировали лучший инструмент для измерения космического фона с более высокой точностью, были исследователи, которые утверждали, что выпустят только половину данных. Это потому, что есть только один снимок для сбора данных. После того, как все регрессии были выполнены десятками различных исследователей (и из-за невероятных вариаций и креативности теоретика, безусловно, есть некоторая подгонка к каждому возможному, случайному, удару в данных), нет возможности выполнить новый эксперимент для проверки (то есть, если вы не в состоянии создать целую новую вселенную).

Секст Эмпирик
источник
1
+1 за @MartijnWeterings, как я уже сказал в моих комментариях, математически проблема не была правильно поставлена. У меня сложилось впечатление, что ОП считает, что в этом есть парадокс, потому что два исследователя будут приводить к одному и тому же выбору модели, а тот, кто делает 1000 регрессий, наказывается из-за необходимости множественного сравнения. Я вообще не вижу в этом парадокса (неясно, но я думаю, что это сделал ОП). Вы дали очень красиво написанный и правильный ответ, который также интуитивно объясняет, почему эти два случая различны. Я думаю, что ОП должен дать ваш ответ проверку!
Майкл Р. Черник
1
Кроме того, я знаю, что это обычная практика, но неужели вас не смущает, что один результат является «более убедительным доказательством», чем другой, когда они представляют собой одну и ту же модель и данные одного и того же процесса генерирования данных? Единственное, что отличается, это то, как третья сторона посмотрела на данные, и это не должно иметь никакого отношения к самому DGP или вашим прежним представлениям о проблеме. Должен ли анализ исследователя 2 быть испорчен невежеством исследователя 1, например?
statslearner
1
@MartijnWeterings, почему намерение исследователя имеет значение для интерпретации данных? Если вы используете это как эвристику, как неспециалист, интерпретирующий результат эксперта, это нормально. Но для ученого, анализирующего данные, кажется, что намерение исследователя не должно иметь никакого отношения к вашей интерпретации доказательств.
statslearner
1
Таким образом, кажется, что вы используете поведение исследователя в качестве прокси для вашего предыдущего. Если бы исследователь провел 1000 регрессий, это соответствовало бы минимуму до этой конкретной гипотезы. Если бы он пробежал только 1, это соответствовало бы высокому априору этой гипотезы. Если у вас было два случая, то вы не знаете, какой из них до использования.
statslearner
1

Короткая история: у нас недостаточно информации, чтобы ответить на ваш вопрос, потому что мы ничего не знаем об используемых методах или собранных данных.

Длинный ответ ... Реальный вопрос здесь заключается в том, что делает каждый исследователь:

  • строгая наука
  • строгая лженаука
  • исследование данных
  • выемка данных или p-хакерство

Их методы будут определять силу интерпретации их результатов. Это потому, что некоторые методы менее надежны, чем другие.

В строгой науке мы разрабатываем гипотезу, выявляем смешанные переменные, разрабатываем элементы управления для переменных вне нашей гипотезы, планируем методы испытаний, планируем нашу аналитическую методологию, выполняем тесты / собираем данные, а затем анализируем данные. (Обратите внимание, что аналитические методы планируются до проведения теста). Это самое строгое, потому что мы должны принять данные и анализ, которые не согласуются с гипотезой. Недопустимо менять методы по факту, чтобы получить что-то интересное. Любая новая гипотеза из результатов должна пройти через тот же процесс снова.

В лженауке мы часто берем данные, которые уже собраны. Это сложнее в этическом плане, потому что к результатам проще добавить отклонения. Тем не менее, все еще возможно следовать научному методу для этических аналитиков. Хотя может быть трудно установить надлежащий контроль, и это должно быть исследовано и отмечено.

Исследование данных не основано на науке. Там нет конкретной гипотезы. Не существует априорной оценки смешанных факторов. Кроме того, трудно вернуться и повторно выполнить анализ, используя те же данные, потому что результаты могут быть испорчены предшествующими знаниями или моделированием, и нет новых данных, которые можно использовать для проверки. Рекомендуется провести строгий научный эксперимент, чтобы прояснить возможные связи, найденные в результате поискового анализа.

Дноуглубление данных или P-хакерство - это когда аналитик проводит несколько тестов в надежде получить неожиданный или неизвестный ответ или манипулирует данными, чтобы получить результат. Результаты могут быть простым совпадением, могут быть результатом смешанной переменной (ей) или могут не иметь значимого эффекта или размера.

Есть некоторые средства для каждой проблемы, но эти средства должны быть тщательно оценены.

Адам Сэмпсон
источник
1
Я полагаю, вы добавляете ненужный шум в вопрос. Предположим, они использовали лучшие доступные методы. Данные собирались не ими, а статистическим агентством, поэтому они не контролировали сбор данных. Разница лишь в том, насколько каждый исследователь исследовал данные. Один из них много исследовал, другой исследовал только один раз. Оба получают одинаковую окончательную модель с одинаковыми данными. Должны ли они делать разные выводы? И как это должно повлиять на ваш вывод?
statslearner
Это не лишний шум. Математика - это математика. Если модели идентичны, то они идентичны. То, как вы интерпретируете модели, зависит от всех других переменных, не включенных в вашу проблему. Если вы проигнорируете весь другой контекст и дизайн или эксперименты, ответ прост, обе модели работают одинаково математически и обе являются научно слабыми.
Адам Сэмпсон