В последние несколько лет различные ученые поднимали пагубную проблему проверки научной гипотезы, получившую название «степень свободы исследователя», что означает, что ученые имеют множество вариантов выбора в ходе анализа, которые смещаются в сторону обнаружения с p-значением <5%. Эти неоднозначные варианты выбора, например, включают в себя случай, который классифицируется как выброс, выполнение многочисленных спецификаций модели, пока что-то не появится, не публикуйте нулевые результаты и т. Д. (Статья, которая вызвала эту дискуссию в психологии, здесь , посмотрите популярную статью Slate и последующие дебаты Эндрю Гельмана здесь , и журнал Time также затрагивает эту тему здесь .)
Сначала один уточняющий вопрос:
Журнал Time написал:
«Степень 0,8 означает, что из десяти проверенных истинных гипотез исключены будут только две, поскольку их влияние не отражено в данных»;
Я не уверен, как это вписывается в определение степенной функции, которое я нашел в учебнике, - это вероятность отклонения нуля как функции параметра . С разной у нас разная сила, поэтому я не совсем понимаю приведенную выше цитату.
Во-вторых , некоторые последствия для исследований:
В моей области политической науки / экономики ученые просто используют все имеющиеся данные по годам в стране. Таким образом, мы не должны быть обеспокоены образцом возиться здесь?
Может ли быть решена проблема запуска нескольких тестов, но сообщая только об одной модели, просто из-за того, что кто-то еще в дисциплине повторно проверит вашу статью и немедленно ударит вас за отсутствие надежных результатов? Предвидя это, ученые в моей области, скорее всего, включат
robustness check
раздел, где они показывают, что несколько спецификаций модели не изменяют результат. Достаточно ли этого?Эндрю Гельман и другие поднимают вопрос о том, что независимо от данных всегда можно найти и опубликовать некий «шаблон», которого на самом деле нет. Но это не должно вызывать беспокойства, учитывая тот факт, что любая эмпирическая «модель» должна поддерживаться теорией, а конкурирующие теории в рамках дисциплины будут просто участвовать в дебатах / гонках, чтобы найти, какой лагерь способен найти больше «моделей» в разных местах. Если паттерн действительно ложный, то теория, лежащая в основе, будет быстро разрушена, если в других сэмплах / настройках нет аналогичного паттерна. Разве так не развивается наука?
Предполагая, что текущая тенденция журналов с нулевым результатом действительно будет процветать, есть ли способ объединить все нулевые и положительные результаты вместе и сделать вывод о теории, которую они все пытаются проверить?
Ответы:
Вместо того, чтобы использовать p-значения для оценки претензий, мы должны следовать совету Роберта Абельсона и использовать критерии MAGIC:
Подробнее об Абельсоне читайте в моем обзоре его книги
И мы должны сосредоточиться на величинах эффекта, а не на значениях p в статистическом выводе (с возможным исключением некоторых видов интеллектуального анализа данных, в которых я вообще не разбираюсь). А размеры эффекта должны оцениваться в контексте:
Статистик / аналитик данных не должен быть каким-то странным человеком, используемым как черный ящик, в который помещаются данные, из которых получаются значения p; он / она должен быть научным сотрудником, призванным дать разумный аргумент о значении некоторого набора данных в контексте некоторой области, учитывая текущие теории (или их отсутствие) и текущие доказательства (или их отсутствие).
К сожалению, этот подход требует обдумывания со стороны предметных исследователей, аналитика данных и тех, кто рассматривает результаты (будь то заостренный руководитель, диссертационный комитет, редактор журнала или кто-либо еще). Как ни странно, даже ученые кажутся не склонными к такого рода мысли.
Более подробно о моих взглядах можно прочитать в статье Science360, которую я написал .
источник
Сфера статистической науки решает эти проблемы с самого начала. Я продолжаю говорить, что роль статистика состоит в том, чтобы гарантировать, что частота ошибок типа 1 остается фиксированной. Это подразумевает, что риск сделать ложноположительные выводы не может быть устранен, но может контролироваться. Это должно привлечь наше внимание к чрезвычайно большому объему научных исследований, которые проводятся, а не к философии и этике общей статистической практики. За каждый невероятный (непредсказуемый) результат, который обнаруживается в средствах массовой информации (или в политике правительства), по меньшей мере 19 других невероятных результатов были сбиты за их нулевые результаты.
В самом деле, если вы пойдете, скажем, на Clinicaltrials.gov, вы заметите, что в настоящее время в США (почти по всем признакам заболевания) проводится более 1000 клинических испытаний фармацевтических препаратов. Это означает, что при частоте ложно-положительных ошибок 0,001 в среднем на полки будет поставлено, по меньшей мере, 1 лекарство, которое не имеет никакого эффекта. Достоверность 0,05 в качестве подтвержденного порога статистической значимости ставилась под сомнение снова и снова. По иронии судьбы, только статистики чувствуют себя некомфортно при использовании коэффициента ошибочных ответов 1/20, тогда как финансовые заинтересованные стороны (будь то ИП или Мерк) будут настойчиво следовать убеждениям независимо от результатов in-vitro, теоретических доказательств или силы предыдущих доказательств. Честно, это упорство является успешным и похвальным личным качеством многих людей, которые преуспели в нестатистических ролях. Как правило, они сидят над статистиками в своих соответствующих тотемах, которые склонны использовать это упорство.
Я думаю, что цитата из «Времени», которую вы выдвинули, совершенно неверна. Сила - это вероятность отклонения нулевой гипотезы, если она ложна. Это, что более важно, зависит от того, насколько «ложной» является нулевая гипотеза (которая, в свою очередь, зависит от измеряемой величины эффекта). Я редко говорю о силе вне контекста того эффекта, который мы считаем «интересным» обнаруживать. (например, 4-месячная выживаемость после химиотерапевтического лечения рака поджелудочной железы 4-й стадии не представляет интереса, поэтому нет причин привлекать 5000 человек для исследования 3-й фазы).
Чтобы ответить на вопросы, которые вы задали
???
Множественность сложна, потому что она не приводит к очевидному правилу принятия решения о том, как обрабатывать данные. Например, предположим, что мы заинтересованы в простой проверке среднего значения. Несмотря на бесконечные протесты моих коллег, легко показать, что критерий Стьюдента хорошо откалиброван для выявления различий в среднем независимо от распределения выборки данных. Предположим, мы поочередно преследовали их путь. Они начнут с проверки на нормальность, используя некоторый вариант хорошо известного дистрибутивного теста (скажем, калибровку qqplot). Если данные выглядели достаточно ненормальными, они тогда спрашивали, следуют ли данные какому-либо общеизвестному преобразованию, и затем применяли преобразование Бокса-Кокса для определения степенного преобразования (возможно, логарифмического), которое максимизирует энтропию. Если появляется очевидное числовое значение, они будут использовать это преобразование. Если нет, то они будут использовать «бесплатный дистрибутивный» тест Уилкоксона. Для этой специальной последовательности событий я не могу начать надеяться, как рассчитать калибровку и мощность для простого теста средних разностей, когда простого, глупого t-теста было бы достаточно. Я подозреваю, что глупые поступки, подобные этому, могут быть математически связаны с суперэффективной оценкой Ходжа: оценки, которые являются мощными при определенной гипотезе, мы хотим быть правдой. Тем не менее, этот процесс Сверхэффективная оценка: оценки, которые являются мощными при определенной гипотезе, мы хотим быть правдой. Тем не менее, этот процесс Сверхэффективная оценка: оценки, которые являются мощными при определенной гипотезе, мы хотим быть правдой. Тем не менее, этот процессне статистический, потому что частота ложноположительных ошибок не контролировалась.
Концепция того, что тренды могут быть «обнаружены» ошибочно в любом случайном наборе данных, вероятно, восходит к хорошо написанной статье Мартина под названием «Статистическая сетка Мюнхэзена» . Это очень яркое чтение, которое датируется 1984 годом, до того, как нам родился золотой телец машинного обучения, каким мы его знаем в настоящее время. Действительно, правильно сформулированная гипотеза является фальсифицируемой, но ошибки типа 1 стали намного дороже в нашем обществе, управляемом данными, чем когда-либо прежде. Возьмем, к примеру, фальсифицированные данные исследований по вакцинации, которые привели к массовой последовательности смертей от коклюша. Результаты, которые отвергли общественное обезвреживание вакцин, были связаны единым исследованием(что, хотя и неправильно, не было подтверждено внешними исследованиями). Существует этический стимул для получения результатов и предоставления достоверных доказательств. Насколько сильны доказательства? Это не имеет ничего общего с полученным p-значением, но p-значение, которое вы сказали бы назвать значимым. И помните, что фальсификация ваших данных изменяет значение p, даже когда окончательный подтверждающий тест сообщает о чем-то другом (часто намного меньшем).
ДА! В мета-анализах, опубликованных такими журналами, как Кокрановский отчет, отчетливо видно, что распределение результатов испытаний выглядит более бимодальным, чем норамль, и только положительные и отрицательные результаты попадают в журналы. Это доказательство абсолютно помешает и вводит в заблуждение любого в клинической практике. Если вместо этого мы публикуем нулевые результаты (полученные в результате исследований , результаты которых были бы нам интересны, независимо от того, какими они будут ), мы можем ожидать, что метаанализ действительно представит доказательства, которые являются значимыми и репрезентативными.
источник
Во-первых, я не статистик, а просто исследователь, который много раз изучал его в последние несколько лет, чтобы выяснить, почему методов, которые я наблюдаю, которые используются вокруг меня, так не хватает и почему так много путаницы в базовых понятиях, таких как «что» такое р-значение? Я дам свою точку зрения.
Мощность является функцией θ, дисперсии и размера выборки. Я не уверен, в чем путаница. Также во многих случаях, в которых используется тест значимости, нулевая гипотеза среднее значение 1 = среднее значение 2 всегда ложно. В этих случаях значимость зависит только от размера выборки. Пожалуйста, прочитайте «Теорию-тестирование в психологии и физике: методологический парадокс» Пола Мейла, она многое прояснила для меня, и я никогда не видел адекватного ответа. У Пола Мила есть еще несколько статей по этому вопросу, которые вы можете найти, выполнив поиск по его имени.
Если вы читаете статью Simmons 2011, это только один из упомянутых методов «p-хакерства». Если это правда, что существует только один набор данных, и никто не выбирает выборочные выборки из него, то я думаю, что нет места для увеличения размера выборки.
Если бы репликация происходила без смещения публикации, не было бы необходимости в «журналах с нулевым результатом». Я бы сказал, что раздел проверки надежности хорош, но его недостаточно, если исследователи не публикуют то, что они считают нулевыми результатами. Также я бы не стал считать результат надежным только потому, что несколько методов анализа одних и тех же данных приходят к одному и тому же выводу. Надежным результатом является тот, который делает правильный прогноз влияния / корреляции / и т. Д. На новые данные .
Репликация не получает р <0,05 оба раза. Теория должна считаться более надежной, если она предсказывает другой эффект / корреляцию / и т. Д., Чем использовалась в первом исследовании. Я не имею в виду наличие эффекта или корреляции, но точное значение или небольшой диапазон значений по сравнению с возможным диапазоном значений. Наличие увеличенного / уменьшенного эффекта или положительной / отрицательной корреляции на 100% может быть верным в случае, если нулевая гипотеза неверна. Читайте Meehl.
Наука не может функционировать должным образом, если исследователи не публикуют нулевые результаты. Кроме того, только то, что образец не был обнаружен во втором образце / настройке, не означает, что он не существует в условиях первоначального исследования.
Это был бы метаанализ . В этом случае нет ничего особенного в нулевых результатах, кроме того, что исследователи не публикуют их, потому что значения p были выше произвольного порога. При наличии предвзятости публикации метаанализ ненадежен, как и вся литература, страдающая от предвзятости публикации. Хотя это может быть полезно, метаанализ гораздо хуже оценивает теорию, чем когда эта теория делает точный прогноз, который затем проверяется. Предвзятость публикации не так важна, пока новые прогнозы оказываются успешными и воспроизводятся независимыми группами.
источник
Я бы сказал, просто, поскольку проверка нулевой гипотезы на самом деле касается только нулевой гипотезы. И вообще, нулевая гипотеза обычно не является тем, что представляет интерес, и может даже не быть «статус-кво» - особенно в регрессионном типе проверки гипотез. Часто в социальных науках отсутствует статус-кво, поэтому нулевая гипотеза может быть совершенно произвольной. Это имеет огромное значение для анализа, поскольку исходная точка не определена, поэтому разные исследования начинаются с разных нулевых гипотез, скорее всего, основанных на имеющихся у них данных. Сравните это с чем-то вроде законов движения Ньютона - имеет смысл принять это как нулевую гипотезу и попытаться найти лучшие теории с этой отправной точки.
Кроме того, p-значения не рассчитывают правильную вероятность - мы не хотим знать о вероятностях хвоста, если только альтернативная гипотеза не является более вероятной, когда вы продвигаетесь дальше в хвосты. Что вы действительно хотите, так это то, насколько хорошо теория предсказывает то, что было на самом деле. Например, предположим, что я предсказываю, что вероятность «легкого дождя» составляет 50%, а мой конкурент предсказывает, что вероятность составляет 75%. Это оказывается правильным, и мы наблюдаем легкий дождь. Теперь, когда вы решаете, какой метеоролог прав, вы не должны давать моему прогнозу дополнительную оценку за то, что он также дает 40% -ную вероятность «грозы», или отнимать кредит у моего конкурента за то, что он дал «грозе» шанс 0%.
Существует хорошо известный и легко неверно истолкованный эмпирический пример этого, когда монета подбрасывается раз, а число головок составляет 52 , 263 , 471 - немного от половины. Нулевая модель для маргинальной модели104 , 490 , 000 52 , 263 , 471 Y~ Б я п ( п , 0,5 ) Y| θ∼Bin(n,θ) θ ∼ U( 0 , 1 ) Y~ Б е т в Б я п ( п , 1 , 1 ) ~ D U( 0 , … , n ) р = 0,00015
Это особенно верно для примера, который критикует Гельман - действительно когда-либо проверялась только одна гипотеза, и не слишком много думали о том, что а) каковы объяснения альтернатив (особенно в отношении смешения и влияния, которое не контролируется), б) насколько альтернативы, подтвержденные предыдущими исследованиями, и, самое главное, в) какие прогнозы они делают (если таковые имеются), которые существенно отличаются от нуля?
Главное подчеркнуть, что гипотеза никогда не может существовать в отрыве от альтернатив. Ведь после указания теорий / моделей вы всегда можете добавить новую гипотезу H K + 1 = Что-то еще, о чем еще не думали. По сути, этот тип гипотезы - это в основном то, что развивает науку - у кого-то есть новая идея / объяснение для некоторого вида эффект, а затем проверяет эту новую теорию против текущего набора альтернатив . Его HК
источник