Должны ли мы учитывать множественные корректировки сравнений при использовании доверительных интервалов?

Предположим, у нас есть сценарий множественного сравнения, такой как постфакторный вывод по парной статистике, или, например, множественная регрессия, где мы делаем в общей сложности сравнений. Предположим также, что мы хотели бы поддержать вывод в этих кратных числах, используя доверительные интервалы. $m$

1. Применяем ли мы несколько сравнительных корректировок к КИ? То есть точно так же, как множественные сравнения требуют переопределения либо для частоты ошибок по семейным признакам (FWER), либо для частоты ложных обнаружений (FDR), это означает доверие (или достоверность ¹ , или неопределенность, или прогноз, или логический вывод ... выберите свой интервал) аналогичным образом измениться при множественных сравнениях? Я понимаю, что отрицательный ответ здесь будет спорить мои оставшиеся вопросы. $\alpha$

2. Есть ли прямой перевод нескольких процедур корректировки сравнения от проверки гипотезы к оценке интервала? Например, будут ли корректировки направлены на изменение условия в доверительном интервале: ? $\text{CI-level}$ $\text{CI}_{\theta} = (\hat{\theta} \pm t_{(1-\text{CI-level)/2}}\hat{\sigma}_{\theta})$

3. Как бы мы рассмотрели процедуры повышающего или понижающего контроля для КИ? Некоторые корректировки по частоте ошибок по семейному принципу из подхода проверки гипотез к выводу являются «статическими» в том смысле, что в каждом отдельном выводе делается точно такая же корректировка. Например, корректировка Бонферрони производится путем изменения критерия отклонения из:

отклонить, если : $p\le \frac{\alpha}{2}$
отклонить, если , $p\le \frac{\frac{\alpha}{2}}{m}$

но регулировка шага Холма-Бонферрони не является «статичной», а скорее производится:

сначала упорядочив наименьшего к наибольшему, а затем $p$
отклонить, если , (где индексирует порядок значений ) до $p\le 1 - (1- \frac{\alpha}{2})^{\frac{1}{m+1-i}}$ $i$ $p$
мы не можем отклонить нулевую гипотезу и автоматически не можем отклонить все последующие нулевые гипотезы.

Поскольку отклонение / отказ от отклонения не происходит с КИ (более формально, см. Ссылки ниже), означает ли это, что пошаговые процедуры не переводятся (т. Е. Включая все методы FDR)? Здесь я должен предостеречь, что я не спрашиваю, как перевести КИ в тесты на гипотезы (представители литературы по «визуальному тестированию гипотез», приведенной ниже, получают этот нетривиальный вопрос).

4. Как насчет других интервалов, которые я упомянул в скобках в 1?

¹ Черт возьми, я надеюсь, что у меня не будет проблем с тем , что ты играешь на милых, милых байесовских стилях, используя это слово здесь. :)

Ссылки
Афшартус, Д. и Престон, Р. (2010). Доверительные интервалы для зависимых данных: приравнивание непересекающегося статистического значения. Вычислительная статистика и анализ данных , 54 (10): 2296–2305.

Камминг Г. (2009). Вывод на глаз: чтение перекрытия независимых доверительных интервалов. Статистика в медицине , 28 (2): 205–220.

Payton, ME, Greenstone, MH, and Schenker, N. (2003). Перекрывающиеся доверительные интервалы или стандартные интервалы ошибок: что они означают с точки зрения статистической значимости? Журнал науки о насекомых , 3 (34): 1–6.

Tryon, WW and Lewis, C. (2008). Метод логического доверительного интервала для установления статистической эквивалентности, который корректирует поправочный коэффициент Трюона (2001). Психологические методы , 13 (3): 272–277.

confidence-interval multiple-comparisons inference Alexis
источник

У меня нет времени, чтобы исследовать полный ответ сейчас, поэтому я отвечу в комментарии.

Харви Мотульский

[Последний комментарий был усечен. [У меня нет времени исследовать полный ответ, поэтому я отвечу в комментарии. 1) Да, это имеет смысл в тех же ситуациях, что и множественные сравнения для проверки гипотез. 2. Многократные сравнения Бонферрони, Тьюки и Даннета могут быть легко адаптированы для создания доверительных интервалов, когда уровень достоверности применяется ко всей семье. 3. Насколько я могу судить, невозможно сделать доверительные интервалы по методу Холма. 4. Понятия не имею!

Харви Мотульский

p

$p$

α

$\alpha$

Ответы:

Отличная тема, которой, к сожалению, не уделяется достаточно внимания.

При обсуждении нескольких параметров и доверительных интервалов следует различать одновременный вывод и выборочный вывод. Ссылка [2] . дает отличную демонстрацию этого вопроса.

$1-\alpha$

Эти две концепции могут быть объединены: допустим, вы строите интервалы только для параметров, для которых вы отвергли нулевую гипотезу. Вы явно имеете дело с избирательным выводом. Возможно, вы захотите гарантировать одновременное покрытие выбранных параметров или предельное покрытие выбранных параметров. Первый будет аналогом контроля FWER, а второй - контролем FDR.

Теперь ближе к делу: не все процедуры тестирования имеют соответствующие интервалы. Процедуры FWER и соответствующие им интервалы см. В [3]. К сожалению, эта ссылка немного устарела. Об интервальном аналоге контроля ЧДД ЧД см. [1] и заявку в [4] (которая также включает краткий обзор вопроса). Обратите внимание, что это свежая и активная область исследований, так что вы можете ожидать больше результатов в ближайшем будущем.

[1] Бенджамини Ю. и Д. Екутиели. «Множественные доверительные интервалы с поправкой на ложное обнаружение для выбранных параметров». Журнал Американской статистической ассоциации 100, no. 469 (2005): 71–81.

[2] Кокс, Д.Р. «Замечание о методах множественных сравнений». Технометика 7, №. 2 (1965): 223–24.

[3] Хохберг Ю. и А. К. Тамхейн. Процедуры множественного сравнения. Нью-Йорк, штат Нью-Йорк, США: John Wiley & Sons, Inc., 1987.

[4] Розенблатт, JD и Y. Benjamini. «Выборочные корреляции; Не вуду ». NeuroImage 103 (декабрь 2014): 401–10.

JohnRos
источник

Я бы никогданастроить доверительные интервалы для многократного тестирования. Я не большой поклонник p-значений, потому что я считаю, что оценка параметров - это лучшее использование статистики, чем проверка гипотез, которые никогда не бывают абсолютно верными. Однако я допускаю, что проверка гипотез имеет свое значение, например, в рандомизированном контролируемом исследовании, где, по крайней мере, можно утверждать, что асимптотически, если лечение не работает, нулевая гипотеза верна. Однако, как я уже говорил в другом месте [1], обычно это предполагает наличие одного основного результата. Тем не менее, доверительные интервалы, в определении частых, не включают гипотезы и поэтому не нуждаются в корректировке для других, потенциально не относящихся к делу, сравнений. Предположим, я тестировал фенотипы, связанные с определенным геном, скажем, рост и кровяное давление. Я' Мне бы хотелось узнать, насколько велика разница в росте между людьми с геном и без него, и насколько хорошо я его оценил. Я не вижу, чтобы тот факт, что я также измерял артериальное давление, как-то связан с этим. Где это может иметь значение, так это то, что если бы эти двое были единственными значимыми из сотен, которые мы тестировали. Тогда вполне вероятно, что различия, случайно, больше, чем ожидаемые контрфактивные эксперименты, в которых мы измеряли только рост и кровяное давление, но проводили сотни экспериментов. Однако в этих обстоятельствах не сработает простая корректировка, и лучше дать нескорректированную оценку, но понять, как вы получили эти сравнения. Мы также опубликовали некоторые результаты по перекрывающимся доверительным интервалам. [2] Я не вижу, что тот факт, что я также измерял артериальное давление, как-то связан с этим. Где это может иметь значение, так это то, что если бы эти двое были единственными значимыми из сотен, которые мы тестировали. Тогда вполне вероятно, что различия, случайно, больше, чем ожидаемые контрфактивные эксперименты, в которых мы измеряли только рост и кровяное давление, но проводили сотни экспериментов. Однако в этих обстоятельствах не сработает простая корректировка, и лучше дать нескорректированную оценку, но понять, как вы получили эти сравнения. Мы также опубликовали некоторые результаты по перекрывающимся доверительным интервалам. [2] Я не вижу, что тот факт, что я также измерял артериальное давление, как-то связан с этим. Где это может иметь значение, так это то, что если бы эти двое были единственными значимыми из сотен, которые мы тестировали. Тогда вполне вероятно, что различия, случайно, больше, чем ожидаемые контрфактивные эксперименты, в которых мы измеряли только рост и кровяное давление, но проводили сотни экспериментов. Однако в этих обстоятельствах не сработает простая корректировка, и лучше дать нескорректированную оценку, но понять, как вы получили эти сравнения. Мы также опубликовали некоторые результаты по перекрывающимся доверительным интервалам. [2] больше, чем ожидаемые контрфактивные эксперименты, где мы измеряли только рост и кровяное давление, но делали это сотнями экспериментов. Однако в этих обстоятельствах не сработает простая корректировка, и лучше дать нескорректированную оценку, но понять, как вы получили эти сравнения. Мы также опубликовали некоторые результаты по перекрывающимся доверительным интервалам. [2] больше, чем ожидаемые контрфактивные эксперименты, где мы измеряли только рост и кровяное давление, но делали это сотнями экспериментов. Однако в этих обстоятельствах не сработает простая корректировка, и лучше дать нескорректированную оценку, но понять, как вы получили эти сравнения. Мы также опубликовали некоторые результаты по перекрывающимся доверительным интервалам. [2]

[1] Кэмпбелл М.Дж. и Swinscow TDV (2009) Статистика на первой площади. 11-е изд Оксфорд; BMJ Books Blackwell Publishing

[2] Джулиус С.А., Кэмпбелл М.Дж., Уолтерс С.Дж. (2007) Прогнозирование будущих средств на основе результатов текущего испытания. Современные клинические испытания, 28, 352-357.

Майк Кэмпбелл
источник

Спасибо за ответ на мысль, Майк. Бенджамини, Хохберг и Екутиели, по-видимому, утверждают, что сравнения не являются «неуместными», но на самом деле одновременными: «Одновременное покрытие также необходимо, когда действие должно быть предпринято на основе значения всех параметров. Таким образом, сравнивая первичные конечные точки между двумя лечение в клиническом испытании, вероятно, будет включать осмотр всех из них, независимо от того, значительно ли они различаются или нет. Это явная ситуация, когда необходимо одновременное покрытие ». (Оставляя в стороне вопрос выборочного представления только некоторых КИ.)

Алексис

Между прочим, учитывая, что «я не большой поклонник p-значений, потому что я считаю, что оценка параметров - это лучшее использование статистики, чем проверка гипотез, которые никогда не бывают абсолютно верными», вам может понравиться Почему частое тестирование гипотез склоняется к отклонению нулевая гипотеза с достаточно большими выборками? , Приветствия.

Алексис

Хотя я согласен с вами в том, что доверительные интервалы для параметров превосходят p-значения для большинства форм вывода, я не уверен, подразумевает ли это, что для доверительных интервалов не требуется коррекция для множественных сравнений. Большинство доверительных интервалов определяются использованием альфа-канала для указания покрытия. Даже в отрыве от строгой системы проверки гипотез, мне кажется (наивно, не удосуживаясь делать симуляции для проверки), что может быть ошибочно придерживаться догматического охвата номинального охвата (например, 95%, то есть альфа = 0,05), когда многократные сравнения участвует.

Райан Симмонс

Майк Кэмпбелл сказал, что «доверительные интервалы, по определению, часто встречаются в гипотезах, и поэтому не нуждаются в корректировке для других, потенциально не относящихся к делу, сравнений». Это странное утверждение. Хотя CI могут не отражать «тесты гипотез» как таковые, они отражают статистические тесты, которые имеют определенную частоту ошибок (например, .05), и эта частота ошибок увеличивается с увеличением количества тестов - точно такими же основными математическими Принцип, который применяется к тестам нулевой гипотезы. Никто не избежит проблемы множественных сравнений, сосредоточившись на КИ вместо значений р.

Бонферрони