Этот вопрос уже задавался здесь и здесь, но я не думаю, что ответы касаются вопроса напрямую.
У слабых исследований увеличилась вероятность ложных срабатываний? Некоторые новостные статьи делают это утверждение. Для примера :
Низкая статистическая мощность - плохая новость. Слабые исследования, скорее всего, пропустят подлинные эффекты, и как группа, они с большей вероятностью будут включать более высокую долю ложноположительных результатов, то есть эффектов, которые достигают статистической значимости, даже если они не являются реальными.
Насколько я понимаю, мощность теста может быть увеличена за счет:
- увеличение размера выборки
- имеющий больший размер эффекта
- повышение уровня значимости
Предполагая, что мы не хотим изменять уровень значимости, я полагаю, что приведенная выше цитата относится к изменению размера выборки. Однако я не вижу, как уменьшение выборки должно увеличить количество ложных срабатываний. Проще говоря, уменьшение силы исследования увеличивает вероятность ложных негативов, что отвечает на вопрос:
Напротив, ложные срабатывания отвечают на вопрос:
Оба вопроса разные, потому что условия разные. Власть (обратно) связана с ложными отрицаниями, но не с ложными срабатываниями. Я что-то пропустил?
источник
Ответы:
Вы правы в том, что размер выборки влияет на мощность (т.е. ошибка 1 - тип II), но не на ошибку I типа. Распространенным заблуждением является то, что p-значение как таковое (правильно интерпретированное) менее надежно или допустимо при небольшом размере выборки - очень интересная статья Friston 2012 об этом забавно [1].
При этом проблемы с недостаточно развитыми исследованиями реальны, и я бы сказал, что цитата в значительной степени правильная, лишь немного неточная в своей формулировке.
Основная проблема с недостаточными исследованиями состоит в том, что, хотя уровень ложных срабатываний (ошибка типа I) в тестах гипотез фиксирован, уровень истинных положительных результатов (мощность) снижается. Следовательно, положительный (= значимый) результат с меньшей вероятностью будет истинно положительным в недостаточно изученном исследовании. Эта идея выражается в частоте ложных открытий [2], см. Также [3]. Кажется, это относится к цитате.
Еще одна проблема, часто упоминаемая в связи с недостаточными исследованиями, заключается в том, что они приводят к завышенным величинам эффекта. Это связано с тем, что: а) при более низкой мощности ваши оценки истинных эффектов станут более переменными (стохастическими) относительно их истинного значения, и б) только самый сильный из этих эффектов пройдет фильтр значимости при низкой мощности. Следует добавить, что это проблема отчетности, которую можно легко решить, обсуждая и сообщая обо всех, а не только о существенных последствиях.
Наконец, важная практическая проблема с недостаточными исследованиями состоит в том, что низкая мощность увеличивает статистические проблемы (например, смещение оценок), а также искушение поиграться с переменными и подобной тактикой p-хакерства. Использование этих «степеней свободы исследователя» наиболее эффективно при низкой мощности, и ЭТО может, в конце концов, увеличить ошибку I типа, см., Например, [4].
По всем этим причинам я бы поэтому скептически отнесся к недостаточному исследованию.
[1] Фристон К. (2012) Десять иронических правил для нестатистических рецензентов. NeuroImage, 61, 1300-1310.
[2] https://en.wikipedia.org/wiki/False_discovery_rate
[3] Кнопка KS; Иоаннидис, JPA; Mokrysz, C .; Носек Б.А. Flint, J .; Robinson, ESJ & Munafo, MR (2013) Отказ питания: почему небольшой размер выборки подрывает надежность нейробиологии. Туземный Rev. Neurosci., 14, 365-376
[4] Симмонс, JP; Нельсон, Л.Д. и Симонсон, У. (2011) Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное. Psychol Sci., 22, 1359-1366.
источник
В зависимости от того, как вы на это смотрите, низкая мощность может увеличить количество ложноположительных результатов в данных сценариях.
Учтите следующее: исследователь проверяет лечение. Если тест возвращается как незначительный, они отказываются от него и переходят к следующему лечению. Если тест возвращается значительным, они публикуют его. Давайте также учтем, что исследователь проверит некоторые методы лечения, которые работают, а некоторые - нет. Если исследователь обладает высокой мощностью (разумеется, имея в виду случай, когда он тестирует работающее лечение), тогда он, скорее всего, остановится, как только протестирует эффективное лечение. С другой стороны, при малой мощности они могут пропустить истинный эффект лечения и перейти к другим методам лечения. Чем больше нулевых обработок они тестируют, тем больше вероятность того, что они совершат ошибку типа I (этот исследователь не учитывает множественные сравнения). В случае малой мощности, они, как ожидается, протестируют еще много нулевых обработок
Вы можете сказать: «Ну, это просто исследователь, злоупотребляющий множественными сравнениями!». Что ж, это может быть правдой, но так же в наши дни проводится много исследований. Именно по этим причинам я лично мало верю в опубликованные работы, если у них нет достаточно большого размера выборки, чтобы исследователь не мог позволить себе повторить один и тот же эксперимент большое количество раз.
источник
For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null
)Низкое энергопотребление не может повлиять на частоту ошибок типа 1, но может повлиять на долю опубликованных результатов, которые являются ошибками типа 1.
Причина в том, что низкая мощность снижает вероятность правильного отклонения H0 (ошибка типа 2), а не вероятность ложного отклонения H0 (ошибка типа 1).
Предположим на секунду, что есть две литературы ... одна из которых проводится с очень низкой мощностью - около нуля - а другая - с достаточной мощностью. В обеих литературах вы можете предположить, что когда H0 ложно, вы все равно будете иногда получать ложные срабатывания (например, 5% для альфа = 0,05). Предполагая, что исследователи не всегда верны в своих гипотезах, мы можем предположить, что в обеих литературах должно быть одинаковое число ошибок типа 1, хорошая мощность или нет. Это связано с тем, что мощность ошибок типа 1 не зависит от мощности, как уже говорили другие.
Однако в литературе с НИЗКОЙ мощностью у вас также будет много ошибок Типа 2. Другими словами, в литературе с низким энергопотреблением не должно быть правильных отклонений H0, что делает ошибки типа 1 большей частью литературы. В большой литературе вы должны иметь смесь правильных и неправильных отклонений H0.
Итак, низкая мощность увеличивает ошибки типа 1? Нет. Однако это затрудняет поиск истинных эффектов, делая ошибки типа 1 большей частью опубликованных результатов.
источник
В дополнение к ответу других, исследование обычно недостаточно эффективно, когда размер выборки невелик. Есть много тестов, которые только асимптотически верны, и слишком оптимистичны или консервативны для малых n.
Другие тесты действительны только для небольших размеров выборки, если соблюдены определенные условия, но становятся более надежными при большом размере выборки (например, t-критерий).
В обоих этих случаях небольшой размер выборки и неудовлетворительное предположение могут привести к увеличению частоты ошибок типа I. Обе эти ситуации происходят достаточно часто, поэтому я считаю, что реальный ответ на ваш вопрос: не в теории, а на практике.
источник