Нужны ли исправления множественных сравнений для неформальных / визуальных «множественных сравнений»?

9

У меня есть своего рода философский вопрос о том, когда необходима коррекция множественного сравнения.

Я измеряю непрерывный изменяющийся во времени сигнал (в дискретные моменты времени). Время от времени происходят отдельные события, и я хотел бы установить, оказывают ли эти события существенное влияние на измеряемый сигнал.

Таким образом, я могу принять средний сигнал, который следует за событием, и обычно я могу видеть некоторый эффект с определенным пиком. Если я выберу время этого пика и произнесу t-тест, чтобы определить, является ли он значительным по сравнению с тем, когда событие не происходит, нужно ли мне делать множественную коррекцию сравнения?

Хотя я когда-либо выполнял только один t-критерий (рассчитанное значение 1), при первоначальном визуальном осмотре я выбрал один с наибольшим потенциальным эффектом из (скажем) 15 различных моментов времени после задержки, которые я нанес. Так что мне нужно сделать множественную коррекцию сравнения для тех 15 тестов, которые я никогда не выполнял?

Если бы я не пользовался визуальным осмотром, а просто проводил тестирование при каждом запаздывании и выбирал самое высокое, мне, безусловно, нужно было бы исправить. Я просто немного озадачен тем, нужно ли мне делать выбор «наилучшей задержки» по какому-то другому критерию, кроме самого теста (например, визуальный выбор, максимальное среднее и т. Д.)

hypothesis-testing multiple-comparisons thrope
источник

11

Технически, когда вы делаете визуальный предварительный выбор места проведения теста, вы должны уже исправить это: ваши глаза и мозг уже обходят некоторые неопределенности в данных, которые вы не учитываете, если вы просто проводите тест в этот момент. ,

Представьте, что ваш «пик» на самом деле является плато, и вы вручную выбираете разницу «пиков», а затем проводите тестирование, и оно оказывается едва значимым. Если вы проведете тест чуть больше влево или вправо, результат может измениться. Таким образом, вы должны учитывать процесс предварительного отбора: вы не совсем уверены в том, что вы заявляете! Вы используете данные, чтобы сделать выбор, поэтому вы эффективно используете одну и ту же информацию дважды.

Конечно, на практике очень трудно объяснить что-то вроде процесса ручного выбора, но это не значит, что вы не должны этого делать (или, по крайней мере, принимать / утверждать результирующие доверительные интервалы / результаты теста с долей соли).

Вывод : вы всегда должны корректировать множественные сравнения, если вы делаете несколько сравнений, независимо от того, как вы выбрали эти сравнения. Если они не были выбраны до просмотра данных, вы должны исправить это дополнительно.

Примечание: альтернатива корректировке для предварительного выбора вручную (например, когда это практически невозможно), вероятно, состоит в том, чтобы указать ваши результаты так, чтобы они явно содержали ссылку на ручной выбор. Но это не «воспроизводимое исследование», я думаю.

Ник Саббе
источник

1

Всегда делая исправления, тем не менее, увеличивает ваш тип ошибки II. Если у вас есть все значимые результаты до исправления, вы можете потерять их все после исправления, не считая низких шансов на получение всех значимых результатов. Это может зависеть от стоимости ошибки типа I или типа II в вашем контексте.

Этьен Лоу-Декари

Ник дал ответ, который я хотел бы дать, если бы я первым ответил. Однако в начальной настройке вы (mkpitas) сказали, что если вы действительно выполнили 15 тестов, вам не пришлось бы выполнять коррекцию множественности. Я не понимаю, почему ты так сказал. Я думаю, что в этом случае необходимость коррекции множественности становится еще более очевидной. @etienne Ваша точка зрения относится к исправлению FWER, которое очень строго контролирует ошибку типа I. Если вы используете FDR, вы не жертвуете такой силой.

Майкл Р. Черник

8

Давным-давно, на одном из моих первых занятий по статистике, я читал об этом в тексте (я думаю, что это было старое издание книги Коэна о повторном чтении), где говорилось: «Это вопрос, по которому разумные люди могут отличаться».

Мне не ясно, что кому-либо когда-либо нужно исправлять множественные сравнения, и, если они это делают, за какой период или набор сравнений они должны исправлять. Каждая статья? Каждая регрессия или ANOVA? Все что они публикуют по теме? Как насчет того, что ДРУГИЕ люди публикуют?

Как вы пишете в первой строке, это философский.

Питер Флом
источник

4

Вы правы, что есть вопрос о том, сколько сравнений делается, но я не думаю, что это подразумевает ваш вывод. Разумные люди могут отличаться, потому что у них разные цели и разные оценки (функции потерь) для возможных результатов. Если вы должны исправить несколько сравнений, это потому, что это приводит к лучшим ожидаемым потерям. Таким образом, это весьма практический вопрос, а не просто «философия», и существуют рациональные способы его решения, с которым разумные люди могут согласиться.

whuber

2

@whuber вы, безусловно, правы в некоторых ситуациях. Иногда существует разумная функция потерь, хотя часто трудно получить ее явно. Но в других случаях, например, в исследовательской работе, я не могу понять, как возможна любая функция потерь. Конечно, вся идея функции потерь уводит нас от уровня, подобного граалю, p = 0,05, и типичного предположения, что power = 0,8 или 0,9 достаточно хорош, и на (на мой взгляд) более разумную идею, что мы устанавливаем это на более существенных основаниях.

Питер Флом

1

Спасибо за разъяснение объема и духа вашего ответа, Питер.

whuber

4

Меня бесит, когда люди говорят, что тестирование множественности не имеет значения. Я вижу, что это отношение слишком часто выражается в медицинских исследованиях. Вы можете указать на многие статьи, которые пришли к неверным выводам, потому что множественность была проигнорирована. Крайне важно не публиковать статьи с ошибочными выводами в медицине, поскольку это влияет на то, как обращаются с пациентами и на карту поставлена жизнь. Многообразие способствует смещению публикаций (потому что, когда проблема изучается много раз, публикуются только исследования со значительными результатами), что является серьезной проблемой в метаанализе,

Майкл Р. Черник

1

@MichaelChernick, я согласен - это очень проблематично, когда люди игнорируют множественные исправления тестирования. Тем не менее, я думаю, что Питер поднимает хороший вопрос - какова должна быть область многократного тестирования? Все тесты сделаны в одной статье? Все тесты сделаны с одним набором данных? Все тесты сделаны с начала времен? Похоже, что нет правильного ответа.

Макрос

4

Если вы пытаетесь принять одноразовые решения о реальности и хотите контролировать скорость, с которой вы ложно отвергаете нулевую гипотезу, то вы будете использовать тестирование значимости нулевой гипотезы (NHST) и захотите использовать коррекцию для множественных сравнений. Тем не менее, как отмечает Питер Флом в своем ответе, неясно, как определить набор сравнений, к которым применяется коррекция. Самый простой выбор - это набор сравнений, применяемых к данному набору данных, и это наиболее распространенный подход.

Тем не менее, науку, пожалуй, лучше всего воспринимать как совокупную систему, в которой разовые решения не являются необходимыми и фактически служат только для снижения эффективности накопления доказательств (сводя полученные доказательства к единому фрагменту информации). Таким образом, если следовать надлежащему научному подходу к статистическому анализу, отказавшись от NHST для таких инструментов, как отношения правдоподобия (возможно, и байесовские подходы), то «проблема» множественных сравнений исчезнет.

Майк Лоуренс
источник

1

Возможная альтернатива коррекции, в зависимости от вашего вопроса, состоит в проверке на значимость суммы p-значений. Вы можете даже оштрафовать себя за тест, который не сделан, добавив высокие значения p.

Можно использовать расширение (которое не требует независимости) метода Фишера (которое требует независимости от теста).

Например. Метод Кости

Этьен Лоу-Декари
источник

Это примеры процедур, используемых в мета-анализе, когда отдельные исследования предоставляют только p-значения или данные не могут быть объединены, но в каждом исследовании рассчитана p-величина. Также комбинированный метод Фишера и обратная норма являются способами построения правил остановки в адаптивных проектах.

Майкл Р. Черник

1

Очень важно помнить, что множественная коррекция тестирования предполагает проведение независимых тестов. Если данные, которые вы анализируете, не являются независимыми, все становится немного сложнее, чем просто корректировка количества выполненных тестов, вы должны учитывать корреляцию между анализируемыми данными, иначе ваша коррекция, вероятно, будет слишком консервативной, и вы будете имеют высокий уровень ошибок типа II. Я обнаружил, что перекрестная проверка, перестановочные тесты или начальная загрузка могут быть эффективными способами, позволяющими справиться с множественными сравнениями при правильном использовании. Другие упоминали об использовании FDR, но это может дать неверные результаты, если в ваших данных много несамостоятельности, так как предполагается, что значения p одинаковы во всех тестах с нулевым значением.

Matt
источник

2

p

$p$

Нужны ли исправления множественных сравнений для неформальных / визуальных «множественных сравнений»?

Ответы: