У меня есть своего рода философский вопрос о том, когда необходима коррекция множественного сравнения.
Я измеряю непрерывный изменяющийся во времени сигнал (в дискретные моменты времени). Время от времени происходят отдельные события, и я хотел бы установить, оказывают ли эти события существенное влияние на измеряемый сигнал.
Таким образом, я могу принять средний сигнал, который следует за событием, и обычно я могу видеть некоторый эффект с определенным пиком. Если я выберу время этого пика и произнесу t-тест, чтобы определить, является ли он значительным по сравнению с тем, когда событие не происходит, нужно ли мне делать множественную коррекцию сравнения?
Хотя я когда-либо выполнял только один t-критерий (рассчитанное значение 1), при первоначальном визуальном осмотре я выбрал один с наибольшим потенциальным эффектом из (скажем) 15 различных моментов времени после задержки, которые я нанес. Так что мне нужно сделать множественную коррекцию сравнения для тех 15 тестов, которые я никогда не выполнял?
Если бы я не пользовался визуальным осмотром, а просто проводил тестирование при каждом запаздывании и выбирал самое высокое, мне, безусловно, нужно было бы исправить. Я просто немного озадачен тем, нужно ли мне делать выбор «наилучшей задержки» по какому-то другому критерию, кроме самого теста (например, визуальный выбор, максимальное среднее и т. Д.)
Давным-давно, на одном из моих первых занятий по статистике, я читал об этом в тексте (я думаю, что это было старое издание книги Коэна о повторном чтении), где говорилось: «Это вопрос, по которому разумные люди могут отличаться».
Мне не ясно, что кому-либо когда-либо нужно исправлять множественные сравнения, и, если они это делают, за какой период или набор сравнений они должны исправлять. Каждая статья? Каждая регрессия или ANOVA? Все что они публикуют по теме? Как насчет того, что ДРУГИЕ люди публикуют?
Как вы пишете в первой строке, это философский.
источник
Если вы пытаетесь принять одноразовые решения о реальности и хотите контролировать скорость, с которой вы ложно отвергаете нулевую гипотезу, то вы будете использовать тестирование значимости нулевой гипотезы (NHST) и захотите использовать коррекцию для множественных сравнений. Тем не менее, как отмечает Питер Флом в своем ответе, неясно, как определить набор сравнений, к которым применяется коррекция. Самый простой выбор - это набор сравнений, применяемых к данному набору данных, и это наиболее распространенный подход.
Тем не менее, науку, пожалуй, лучше всего воспринимать как совокупную систему, в которой разовые решения не являются необходимыми и фактически служат только для снижения эффективности накопления доказательств (сводя полученные доказательства к единому фрагменту информации). Таким образом, если следовать надлежащему научному подходу к статистическому анализу, отказавшись от NHST для таких инструментов, как отношения правдоподобия (возможно, и байесовские подходы), то «проблема» множественных сравнений исчезнет.
источник
Возможная альтернатива коррекции, в зависимости от вашего вопроса, состоит в проверке на значимость суммы p-значений. Вы можете даже оштрафовать себя за тест, который не сделан, добавив высокие значения p.
Можно использовать расширение (которое не требует независимости) метода Фишера (которое требует независимости от теста).
Например. Метод Кости
источник
Очень важно помнить, что множественная коррекция тестирования предполагает проведение независимых тестов. Если данные, которые вы анализируете, не являются независимыми, все становится немного сложнее, чем просто корректировка количества выполненных тестов, вы должны учитывать корреляцию между анализируемыми данными, иначе ваша коррекция, вероятно, будет слишком консервативной, и вы будете имеют высокий уровень ошибок типа II. Я обнаружил, что перекрестная проверка, перестановочные тесты или начальная загрузка могут быть эффективными способами, позволяющими справиться с множественными сравнениями при правильном использовании. Другие упоминали об использовании FDR, но это может дать неверные результаты, если в ваших данных много несамостоятельности, так как предполагается, что значения p одинаковы во всех тестах с нулевым значением.
источник