Путаница с ложным уровнем обнаружения и многократным тестированием (на Colquhoun 2014)

19

Я прочитал эту замечательную статью Дэвида Колкхуна: исследование уровня ложных открытий и неправильного толкования р-значений (2014). По сути, он объясняет, почему частота ложных обнаружений (FDR) может достигать даже если мы контролируем ошибку типа I с α = 0,05 .30%αзнак равно0,05

Однако я все еще не понимаю, что произойдет, если я применю контроль FDR в случае многократного тестирования.

Скажем, я выполнил испытание для каждого из многих переменных, и вычислил -величины , используя процедуру Benjamini-Höchberg. Я получил одну переменную, которая значима с q = 0,049 . Я спрашиваю, что такое FDR для этого открытия?QQзнак равно0,049

Могу ли я с уверенностью предположить, что в долгосрочной перспективе, если я сделаю такой анализ на регулярной основе, FDR будет не , а ниже 5 % , потому что я использовал Бенджамини-Хохберга? Это неправильно, я бы сказал, что q- значение соответствует p- значению в статье Колкхуна, и его рассуждения применимы и здесь, так что, используя q- порог 0,05, я рискую «одурачить себя» (так как Colquhoun ставит это) в 30 % случаев. Однако я попытался объяснить это более формально и потерпел неудачу.30%5%QпQ0,0530%

январь
источник
2
Эй, @ января, мне интересно, почему ты предлагаешь такую ​​большую награду (250), а потом никогда не возвращаешься, чтобы наградить ее и / или проверить ответы! Надеюсь, с тобой все хорошо.
говорит амеба: восстанови Монику
3
Две рукописи обрушились на меня, как тонна кирпичей, и я полностью забыл об этом.
январь

Ответы:

15

Случилось так, что по стечению обстоятельств я прочитал эту же статью всего пару недель назад. Colquhoun упоминает множественные сравнения (включая Бенджамини-Хохберга) в разделе 4, когда ставит проблему, но я нахожу, что он недостаточно проясняет проблему - поэтому я не удивлен, увидев ваше замешательство.

Важно понимать, что Colquhoun говорит о ситуации без каких-либо множественных корректировок сравнения. Можно понять, что документ Колкухуна принимает точку зрения читателя: он, по сути, спрашивает, какую вероятность ложных открытий (FDR) он может ожидать, когда читает научную литературу, и это означает, что такое ожидаемый FDR, если не было проведено многократных корректировок сравнения. Многократные сравнения могут быть приняты во внимание при выполнении нескольких статистических тестов в одном исследовании, например, в одном документе. Но никто никогда не приспосабливается к множественным сравнениям между бумагами .

Если вы фактически контролируете FDR, например, следуя процедуре Бенджамини-Хохберга (BH), то она будет контролироваться. Проблема в том, что выполнение процедуры ЧД отдельно в каждом исследовании не гарантирует общий контроль FDR.

Могу ли я с уверенностью предположить, что в долгосрочной перспективе, если я сделаю такой анализ на регулярной основе, FDR будет не , а ниже 5 % , потому что я использовал Бенджамини-Хохберга?30%5%

Нет. Если вы используете процедуру BH в каждой статье, но независимо в каждой из ваших статей, то вы можете по существу интерпретировать ваши -значения, скорректированные с помощью BH, как нормальные p-значения , и то, что говорит Колкхоун, все еще применимо.пп


Основные пометки

100%30%

Я думаю, что статья в основном разумная, но мне не нравится, что она делает некоторые утверждения слишком смелыми. Например, первое предложение тезисов:

пзнак равно0,0530%

Это сформулировано слишком сильно и может ввести в заблуждение.

амеба говорит восстановить монику
источник
Конечно, я довольно быстро пролистал бумагу, но мне кажется, что он, по сути, просто повторяет общеизвестное заблуждение о том, что легко обнаружить побочные эффекты при больших размерах выборки (например, рисунок 1). Это не значит, что это не имеет смысла, скорее, я чувствую, что у него должно быть другое (и менее смело заявленное) толкование, чем предлагает автор.
Райан Симмонс
1
Я не уверен, почему @RyanSimmons говорит, что я «по сути, просто повторял общеизвестное заблуждение о том, что в больших выборках легко найти ложные эффекты». Это не имеет ничего общего с большими размерами выборки! Я действительно приветствовал бы объяснение того, почему он считает, что в статье должна быть «другая (и менее смело заявленная) интерпретация».
Дэвид Колкухон
«Но никто никогда не приспосабливается к множественным сравнениям между бумагами. Это также было бы практически невозможно». Я думал, что одно из преимуществ ложных корректировок частоты обнаружения по сравнению с семейными корректировками частоты ошибок заключается в том, что в то время как последние требуют определения семейства , первое масштабируется для произвольного числа сравнений?
Алексис
пαп
Ну, то, что вы описываете, безусловно, не процедура множественного сравнения. Однако выполнение методов корректировки на основе FDR, скажем, 5 тестов, а затем добавление еще 20 к этому набору из 10 и выполнение того же метода снова сохраняет вероятности отклонения в FDR, но эти вероятности отклонения изменяются в FWER. Регулировка Данна по Бонферрони является довольно драматичным примером.
Алексис
12

Бенджамини и Хохберг определяют уровень ложных открытий так же, как я, как долю положительных тестов, которые являются ложными. Поэтому, если вы используете их процедуру для множественных сравнений, вы правильно контролируете FDR. Однако стоит отметить, что вариантов метода ЧД достаточно много. Семинары Бенджамини в Беркли на Youtube, и их стоит посмотреть:

Я не уверен, почему @amoeba говорит: «Это сформулировано слишком сильно и может вводить в заблуждение». Мне было бы интересно узнать, почему он / она так думает. Наиболее убедительным аргументом являются смоделированные t-тесты (раздел 6). Это имитирует то, что почти все делают на практике, и это показывает, что если вы наблюдаете P около 0,047 и утверждаете, что сделали открытие, вы ошибетесь по крайней мере в 26% случаев. Что может пойти не так?

Конечно, я не должен описывать это как минимум. Это то, что вы получите, если предположите, что есть реальный эффект 50%. Конечно, если вы предполагаете, что большинство ваших гипотез заранее верны, то вы можете получить более низкий FDR, чем 26%, но можете ли вы представить себе веселье, которое приветствовало бы утверждение, что вы сделали открытие на основании предположения что вы были на 90% уверены заранее, что ваш вывод будет верным. 26% - это минимальный FDR, учитывая, что для логического вывода нет разумных оснований предполагать, что какая-либо предварительная вероятность превышает 0,5.

Учитывая, что догадки часто не выдерживают испытания, вполне возможно, что вероятность того, что какая-то конкретная гипотеза окажется верной, составляет всего 10%, и в этом случае FDR будет иметь катастрофические 76%.

Это правда, что все это зависит от нулевой гипотезы о том, что существует нулевая разница (так называемая точка ноль). Другие варианты могут дать разные результаты. Но суть ноль - это то, что почти каждый использует в реальной жизни (хотя может и не знать об этом). Кроме того, нуль кажется мне вполне подходящим для использования. Иногда возражают, что истинные различия никогда не бывают равны нулю. Я не согласен. Мы хотим сказать, отличаются ли наши результаты от случая, когда обеим группам даны одинаковые методы лечения, поэтому истинная разница точно равна нулю. Если мы решим, что наши данные несовместимы с этим представлением, мы продолжаем оценивать величину эффекта. и в этот момент мы делаем отдельное суждение о том, является ли эффект, хотя и реальным, достаточно большим, чтобы быть важным на практике.Блог Деборы Майо .


@amoeba Спасибо за ваш ответ.

Обсуждение в блоге Мейо показывает, в основном, что Мейо не согласен со мной, хотя она не объяснила почему, по крайней мере мне). Стивен Сенн правильно указывает, что вы можете получить другой ответ, если постулируете другое предварительное распространение. Мне кажется, что это интересно только субъективным байесовцам.

Это, безусловно, не имеет отношения к повседневной практике, которая всегда принимает точку ноль. И, как я объяснил, мне кажется, что это совершенно разумная вещь.

Многие профессиональные статистики пришли к выводам, почти таким же, как мои. Попробуйте Sellke & Berger и Valen Johnson (ссылки в моей статье). В моих заявлениях нет ничего очень противоречивого (или очень оригинального).

Ваша другая точка зрения, касающаяся предположения о 0.5 априорных, вообще не кажется мне предположением. Как я объяснил выше, все, что выше 0,5, будет неприемлемым на практике. И все, что ниже 0,5, увеличивает вероятность ложного обнаружения (например, 76%, если предыдущий равен 0,1). Поэтому вполне разумно сказать, что 26% - это минимальный уровень ложных обнаружений, который вы можете ожидать, если наблюдаете P = 0,047 в одном эксперименте.


Я больше думал об этом вопросе. Мое определение FDR такое же, как у Бенджамини - доля ложных положительных тестов. Но это относится к совершенно другой проблеме, интерпретации одного теста. Оглядываясь назад, возможно, было бы лучше, если бы я выбрал другой термин.

В случае одного теста B & H оставляет значение P без изменений, поэтому ничего не говорит о частоте ложного обнаружения в том смысле, в котором я использую этот термин.


Конечно, вы правы. Бенджамини и Хохберг, а также другие люди, работающие над множественными сравнениями, стремятся только исправить частоту ошибок типа 1. Таким образом, они в конечном итоге с "правильным" значением P. Он подвержен тем же проблемам, что и любое другое значение P. В моей последней статье я изменил название с FDR на False Positive Risk (FPR), чтобы избежать этого недоразумения.

Мы также написали веб-приложение для выполнения некоторых вычислений (заметив, что мало кто скачивает предоставляемые нами R-скрипты). Это на https://davidcolquhoun.shinyapps.io/3-calcs-final/ Все мнения по этому поводу приветствуются (пожалуйста, сначала прочтите вкладку «Примечания»).

PS У веб-калькулятора теперь есть новый (постоянный, я надеюсь) по адресу http://fpr-calc.ucl.ac.uk/ Shiny.io, который прост в использовании, но очень дорог, если кто-то действительно использует приложение :-(


Я вернулся к этой дискуссии, теперь, когда моя вторая статья по этой теме должна появиться в Королевском обществе открытой науки. Это на https://www.biorxiv.org/content/early/2017/08/07/144337

Я понимаю, что самая большая ошибка, которую я сделал в первой статье, заключалась в использовании термина «уровень ложных открытий (FDR)». В новой статье я уточняю, что ничего не говорю о проблеме множественных сравнений. Я имею дело только с вопросом о том, как интерпретировать значение P, которое наблюдается в одном несмещенном тесте.

В последней версии я имею в виду вероятность того, что результатом будет ложноположительный риск (FPR), а не FDR, в надежде уменьшить путаницу. Я также выступаю за обратный байесовский подход - укажите предварительную вероятность, которая потребуется для обеспечения FPR, скажем, 5%. Если вы наблюдаете P = 0,05, то получается 0,87. Другими словами, вы должны были быть почти (87%) уверены, что перед проведением эксперимента был достигнут реальный эффект для достижения FPR 5% (что, по ошибкам, большинство людей все еще считает, что p = 0,05 означает).

Дэвид Колкухун
источник
Уважаемый Дэвид, добро пожаловать в CrossValidated и спасибо за участие! Похоже, что мы согласны с первоначальным @ январским вопросом: FDR может контролироваться только общей процедурой BH; если BH применяется в каждом документе отдельно, то ваши аргументы по-прежнему применимы. Если это так, это решает исходный вопрос. Что касается моего комментария о ваших «слишком сильных» формулировках: прочитав 147 комментариев в блоге Мейо, я не решаюсь начать еще одно обсуждение. Как я уже писал, я в основном согласен с вашей статьей, и мои возражения касались только некоторых формулировок. [продолжение]
говорит амеба Восстановить Монику
1
[...] Первое предложение в аннотации является «слишком сильным» именно по причинам, которые вы здесь перечислили: например, оно предполагает нулевую точку и принимает 0,5 ранее, но звучит так, как будто ничего не предполагает (но я понимаю, что вы пытался быть провокационным). Огромное обсуждение в блоге Мейо показывает, что многие люди не согласны с тем, что эти предположения являются разумными для реальной научной практики. У меня тоже есть свои возражения, но я согласен с вами, что эти предположения могут точно описать некоторые научные области. И если так, то у этих полей есть большая проблема, да.
говорит амеба: восстанови Монику
2

Большая часть путаницы заключается в том, что, несмотря на его комментарии здесь, Колкухун НЕ определяет FDR так же, как Бенджамини-Хохберг. К сожалению, Colquhoun попытался придумать термин без предварительной проверки, чтобы убедиться, что этот термин еще не имеет устоявшегося иного определения. Что еще хуже, Colquhoun определил FDR именно так, как обычные FDR часто неверно истолковывали.

В своем ответе здесь Colquhoun определяет FDR как «часть положительных тестов, которые являются ложными». Это похоже на то, что Бенджамини-Хохберг определяет как FDP (пропорция ложных открытий, не путать с частотой ложных открытий). Бенджамини-Хохберг определяет FDR как ОЖИДАЕМОЕ ЗНАЧЕНИЕ FDP с особым условием, что FDP рассматривается как 0, когда нет положительных тестов (условие, которое делает FDR равным FWER, когда все нули истинны, и избегает неопределимых значений из-за деления на ноль).

Чтобы избежать путаницы, я предлагаю не беспокоиться о деталях в документе Colquhoun, а вместо этого просто принять к сведению общую точку зрения (которую также сделали бесчисленные другие), что альфа-уровень напрямую не соответствует пропорции значительных тестов, которые являются ошибками типа I (говорим ли мы о значительных тестах в одном исследовании или в нескольких исследованиях вместе взятых). Эта пропорция зависит не только от альфы, но также от силы и от доли проверенных нулевых гипотез, которые верны.

Бонферони
источник