Предположим, у нас есть сценарий множественного сравнения, такой как постфакторный вывод по парной статистике, или, например, множественная регрессия, где мы делаем в общей сложности сравнений. Предположим также, что мы хотели бы поддержать вывод в этих кратных числах, используя доверительные интервалы.
1. Применяем ли мы несколько сравнительных корректировок к КИ? То есть точно так же, как множественные сравнения требуют переопределения либо для частоты ошибок по семейным признакам (FWER), либо для частоты ложных обнаружений (FDR), это означает доверие (или достоверность 1 , или неопределенность, или прогноз, или логический вывод ... выберите свой интервал) аналогичным образом измениться при множественных сравнениях? Я понимаю, что отрицательный ответ здесь будет спорить мои оставшиеся вопросы.
2. Есть ли прямой перевод нескольких процедур корректировки сравнения от проверки гипотезы к оценке интервала? Например, будут ли корректировки направлены на изменение условия в доверительном интервале: ?
3. Как бы мы рассмотрели процедуры повышающего или понижающего контроля для КИ? Некоторые корректировки по частоте ошибок по семейному принципу из подхода проверки гипотез к выводу являются «статическими» в том смысле, что в каждом отдельном выводе делается точно такая же корректировка. Например, корректировка Бонферрони производится путем изменения критерия отклонения из:
- отклонить, если :
- отклонить, если ,
но регулировка шага Холма-Бонферрони не является «статичной», а скорее производится:
- сначала упорядочив наименьшего к наибольшему, а затем
- отклонить, если , (где индексирует порядок значений ) до
- мы не можем отклонить нулевую гипотезу и автоматически не можем отклонить все последующие нулевые гипотезы.
Поскольку отклонение / отказ от отклонения не происходит с КИ (более формально, см. Ссылки ниже), означает ли это, что пошаговые процедуры не переводятся (т. Е. Включая все методы FDR)? Здесь я должен предостеречь, что я не спрашиваю, как перевести КИ в тесты на гипотезы (представители литературы по «визуальному тестированию гипотез», приведенной ниже, получают этот нетривиальный вопрос).
4. Как насчет других интервалов, которые я упомянул в скобках в 1?
1 Черт возьми, я надеюсь, что у меня не будет проблем с тем , что ты играешь на милых, милых байесовских стилях, используя это слово здесь. :)
Ссылки
Афшартус, Д. и Престон, Р. (2010). Доверительные интервалы для зависимых данных: приравнивание непересекающегося статистического значения. Вычислительная статистика и анализ данных , 54 (10): 2296–2305.
Камминг Г. (2009). Вывод на глаз: чтение перекрытия независимых доверительных интервалов. Статистика в медицине , 28 (2): 205–220.
Payton, ME, Greenstone, MH, and Schenker, N. (2003). Перекрывающиеся доверительные интервалы или стандартные интервалы ошибок: что они означают с точки зрения статистической значимости? Журнал науки о насекомых , 3 (34): 1–6.
Tryon, WW and Lewis, C. (2008). Метод логического доверительного интервала для установления статистической эквивалентности, который корректирует поправочный коэффициент Трюона (2001). Психологические методы , 13 (3): 272–277.
Ответы:
Отличная тема, которой, к сожалению, не уделяется достаточно внимания.
При обсуждении нескольких параметров и доверительных интервалов следует различать одновременный вывод и выборочный вывод. Ссылка [2] . дает отличную демонстрацию этого вопроса.
Эти две концепции могут быть объединены: допустим, вы строите интервалы только для параметров, для которых вы отвергли нулевую гипотезу. Вы явно имеете дело с избирательным выводом. Возможно, вы захотите гарантировать одновременное покрытие выбранных параметров или предельное покрытие выбранных параметров. Первый будет аналогом контроля FWER, а второй - контролем FDR.
Теперь ближе к делу: не все процедуры тестирования имеют соответствующие интервалы. Процедуры FWER и соответствующие им интервалы см. В [3]. К сожалению, эта ссылка немного устарела. Об интервальном аналоге контроля ЧДД ЧД см. [1] и заявку в [4] (которая также включает краткий обзор вопроса). Обратите внимание, что это свежая и активная область исследований, так что вы можете ожидать больше результатов в ближайшем будущем.
[1] Бенджамини Ю. и Д. Екутиели. «Множественные доверительные интервалы с поправкой на ложное обнаружение для выбранных параметров». Журнал Американской статистической ассоциации 100, no. 469 (2005): 71–81.
[2] Кокс, Д.Р. «Замечание о методах множественных сравнений». Технометика 7, №. 2 (1965): 223–24.
[3] Хохберг Ю. и А. К. Тамхейн. Процедуры множественного сравнения. Нью-Йорк, штат Нью-Йорк, США: John Wiley & Sons, Inc., 1987.
[4] Розенблатт, JD и Y. Benjamini. «Выборочные корреляции; Не вуду ». NeuroImage 103 (декабрь 2014): 401–10.
источник
Я бы никогданастроить доверительные интервалы для многократного тестирования. Я не большой поклонник p-значений, потому что я считаю, что оценка параметров - это лучшее использование статистики, чем проверка гипотез, которые никогда не бывают абсолютно верными. Однако я допускаю, что проверка гипотез имеет свое значение, например, в рандомизированном контролируемом исследовании, где, по крайней мере, можно утверждать, что асимптотически, если лечение не работает, нулевая гипотеза верна. Однако, как я уже говорил в другом месте [1], обычно это предполагает наличие одного основного результата. Тем не менее, доверительные интервалы, в определении частых, не включают гипотезы и поэтому не нуждаются в корректировке для других, потенциально не относящихся к делу, сравнений. Предположим, я тестировал фенотипы, связанные с определенным геном, скажем, рост и кровяное давление. Я' Мне бы хотелось узнать, насколько велика разница в росте между людьми с геном и без него, и насколько хорошо я его оценил. Я не вижу, чтобы тот факт, что я также измерял артериальное давление, как-то связан с этим. Где это может иметь значение, так это то, что если бы эти двое были единственными значимыми из сотен, которые мы тестировали. Тогда вполне вероятно, что различия, случайно, больше, чем ожидаемые контрфактивные эксперименты, в которых мы измеряли только рост и кровяное давление, но проводили сотни экспериментов. Однако в этих обстоятельствах не сработает простая корректировка, и лучше дать нескорректированную оценку, но понять, как вы получили эти сравнения. Мы также опубликовали некоторые результаты по перекрывающимся доверительным интервалам. [2] Я не вижу, что тот факт, что я также измерял артериальное давление, как-то связан с этим. Где это может иметь значение, так это то, что если бы эти двое были единственными значимыми из сотен, которые мы тестировали. Тогда вполне вероятно, что различия, случайно, больше, чем ожидаемые контрфактивные эксперименты, в которых мы измеряли только рост и кровяное давление, но проводили сотни экспериментов. Однако в этих обстоятельствах не сработает простая корректировка, и лучше дать нескорректированную оценку, но понять, как вы получили эти сравнения. Мы также опубликовали некоторые результаты по перекрывающимся доверительным интервалам. [2] Я не вижу, что тот факт, что я также измерял артериальное давление, как-то связан с этим. Где это может иметь значение, так это то, что если бы эти двое были единственными значимыми из сотен, которые мы тестировали. Тогда вполне вероятно, что различия, случайно, больше, чем ожидаемые контрфактивные эксперименты, в которых мы измеряли только рост и кровяное давление, но проводили сотни экспериментов. Однако в этих обстоятельствах не сработает простая корректировка, и лучше дать нескорректированную оценку, но понять, как вы получили эти сравнения. Мы также опубликовали некоторые результаты по перекрывающимся доверительным интервалам. [2] больше, чем ожидаемые контрфактивные эксперименты, где мы измеряли только рост и кровяное давление, но делали это сотнями экспериментов. Однако в этих обстоятельствах не сработает простая корректировка, и лучше дать нескорректированную оценку, но понять, как вы получили эти сравнения. Мы также опубликовали некоторые результаты по перекрывающимся доверительным интервалам. [2] больше, чем ожидаемые контрфактивные эксперименты, где мы измеряли только рост и кровяное давление, но делали это сотнями экспериментов. Однако в этих обстоятельствах не сработает простая корректировка, и лучше дать нескорректированную оценку, но понять, как вы получили эти сравнения. Мы также опубликовали некоторые результаты по перекрывающимся доверительным интервалам. [2]
[1] Кэмпбелл М.Дж. и Swinscow TDV (2009) Статистика на первой площади. 11-е изд Оксфорд; BMJ Books Blackwell Publishing
[2] Джулиус С.А., Кэмпбелл М.Дж., Уолтерс С.Дж. (2007) Прогнозирование будущих средств на основе результатов текущего испытания. Современные клинические испытания, 28, 352-357.
источник