Я категорически не согласен с прыжком @fcoppens от признания важности исправления множественных гипотез в рамках одного исследования к утверждению, что «По одним и тем же рассуждениям, то же самое справедливо, если несколько команд выполняют эти тесты».
Нет сомнений в том, что чем больше будет выполнено исследований и чем больше гипотез будет проверено, тем больше будет ошибок типа I. Но я думаю, что здесь есть путаница по поводу значения «семейных ошибок» и того, как они применяются в реальной научной работе.
Во-первых, помните, что исправления множественного тестирования, как правило, возникали в последующих сравнениях, для которых не было заранее сформулированных гипотез. Совсем не ясно, требуются ли такие же исправления при наличии небольшого заранее определенного набора гипотез.
Во-вторых, «научная правда» отдельной публикации не зависит от истинности каждого отдельного утверждения в публикации. Хорошо спланированное исследование подходит к общей научной (в отличие от статистической) гипотезе с разных точек зрения и объединяет различные типы результатов для оценки научной гипотезы. Каждый отдельный результат может быть оценен статистическим тестом.
Однако, по аргументу @fcoppens, если хотя бы один из этих отдельных статистических тестов совершил ошибку I типа, то это привело бы к «ложному убеждению в« научной истине »». Это просто неправильно.
«Научная истинность» научной гипотезы в публикации, в отличие от достоверности отдельного статистического теста, как правило, происходит из комбинации различных типов доказательств. Упорство на нескольких типах доказательств делает достоверность научной гипотезы устойчивой к отдельным ошибкам, которые неизбежно происходят. Когда я оглядываюсь на свои 50 или около того научных публикаций, мне будет трудно найти любую, которая остается настолько безупречной в каждой детали, на которую, похоже, настаивает @fcoppens. Но я так же трудно найти какой - либо , где научныйгипотеза была совершенно неверной. Возможно, неполное; сделал несоответствующим последующим событиям в этой области, конечно. Но не «неправильно» в контексте состояния научных знаний того времени.
В-третьих, аргумент игнорирует затраты на ошибки типа II. Ошибка типа II может закрыть целые области многообещающих научных исследований. Если бы следовали рекомендациям @fcoppens, частота ошибок типа II значительно возросла бы в ущерб научному предприятию.
Наконец, рекомендации невозможно выполнить на практике. Если я проанализирую набор общедоступных данных, у меня не будет возможности узнать, использовал ли их кто-то еще или для какой цели. У меня нет возможности исправить чьи-либо проверки гипотез. И, как я утверждаю выше, я не должен был.
В тестировании статистической гипотезы можно найти только статистическое подтверждение альтернативной гипотезы, отвергнув нулевое значение, отклонив нулевое, можно сделать вывод, что существуют доказательства в пользу альтернативной гипотезы. (см. также Что следует, если мы не сможем отвергнуть нулевую гипотезу? ).
Таким образом, ложное отклонение нулевого дает нам ложное доказательство, поэтому ложное убеждение в «научной истине». Вот почему следует избегать этой инфляции типа I (почти удвоения ошибки типа I); ошибки более высокого типа I предполагают больше ложных убеждений в том, что что-то научно доказано . Поэтому люди «контролируют» тип Ierror на уровне семьи.
По тем же соображениям, то же самое верно, если несколько команд выполняют эти тесты (на тех же данных).
Очевидно, что приведенные выше результаты верны только в том случае, если мы работаем над одними и теми же данными . Чем отличается то, когда они работают на разных образцах?
Поэтому, если мы используем те же данные, возможно, что выводы тестов основаны на выборке, которая была составлена с «плохим шансом». С другим примером контекст другой.
источник