Мне трудно понять, в чем на самом деле проблема множественных сравнений . По простой аналогии говорят, что человек, который примет много решений, совершит много ошибок. Поэтому применяются очень консервативные меры предосторожности, такие как коррекция Бонферрони, с тем чтобы сделать вероятность того, что этот человек совершит любую ошибку, настолько низко, насколько это возможно.
Но почему мы заботимся о том, допустил ли человек какую-либо ошибку среди всех принятых им решений, а не о проценте ошибочных решений?
Позвольте мне попытаться объяснить, что смущает меня другой аналогией. Предположим, что есть два судьи, одному 60 лет, а другому 20 лет. Затем поправка Бонферрони говорит тому, кому 20 лет, быть настолько консервативным, насколько это возможно, при принятии решения о казни, потому что он будет работать еще много лет в качестве судьи, будет принимать гораздо больше решений, поэтому он должен быть осторожен. Но тот, кому 60 лет, возможно, скоро уйдет на пенсию, будет принимать меньше решений, поэтому он может быть более небрежным по сравнению с другим. Но на самом деле оба судьи должны быть одинаково осторожны или консервативны, независимо от общего количества решений, которые они примут. Я думаю, что эта аналогия более или менее переводит на реальные проблемы, где применяется коррекция Бонферрони, что я считаю противоречивым.
Ответы:
Вы изложили что-то, что является классическим контраргументом к поправкам Бонферрони. Разве я не должен корректировать свой альфа-критерий на основе каждого теста, который я когда-либо сделаю? Этот вид ad absurdum подразумевает, что некоторые люди вообще не верят в исправления стиля Бонферрони. Иногда данные, с которыми им приходится иметь дело в своей карьере, таковы, что это не проблема. Для судей, которые принимают одно или очень мало решений по каждому новому доказательству, это очень веский аргумент. Но как насчет судьи с 20 обвиняемыми, который основывает свое решение на одном большом наборе данных (например, военных трибуналах)?
Вы игнорируете удары по баночной части аргумента. Обычно ученые ищут что-то - значение p меньше, чем альфа. Каждая попытка найти его - это еще один удар по банке. Один в конечном итоге найдет его, если сделает достаточно выстрелов. Поэтому они должны быть оштрафованы за это.
То, как вы согласовываете эти два аргумента, состоит в том, чтобы понять, что оба они верны. Самое простое решение состоит в том, чтобы рассматривать тестирование различий в одном наборе данных как удар по проблеме типа банки, но это расширяет область коррекции за пределы, что было бы скользким уклоном.
Это действительно трудная проблема в ряде областей, в частности в FMRI, где сравниваются тысячи точек данных, и некоторые из них могут оказаться значимыми случайно. Учитывая, что область была исторически очень исследовательской, нужно что-то сделать, чтобы исправить тот факт, что сотни областей мозга будут выглядеть значимыми чисто случайно. Поэтому в этой области было разработано много методов корректировки критерия.
С другой стороны, в некоторых областях можно в большинстве случаев рассматривать от 3 до 5 уровней переменной и всегда просто проверять каждую комбинацию, если происходит значительный ANOVA. Известно, что это имеет некоторые проблемы (ошибки типа 1), но это не особенно страшно.
Это зависит от вашей точки зрения. Исследователь FMRI признает реальную необходимость изменения критерия. Человек, смотрящий на маленькую ANOVA, может почувствовать, что там есть что-то от теста. Надлежащая консервативная точка зрения на множественные сравнения состоит в том, чтобы всегда что-то с ними делать, но только на основе одного набора данных. Любые новые данные сбрасывают критерий ... если вы не байесовский ...
источник
Уважаемые статистики заняли самые разные позиции в нескольких сравнениях. Это тонкий предмет. Если кто-то думает, что это просто, я хотел бы знать, сколько они думают об этом.
Вот интересный байесовский взгляд на множественное тестирование от Эндрю Гельмана: почему мы (обычно) не беспокоимся о множественных сравнениях .
источник
Что касается предыдущего комментария, то, что должен помнить исследователь ФМРТ, это то, что важны клинически важные результаты, а не сдвиг плотности одного пикселя на ФМРТ мозга. Если это не приводит к клиническому улучшению / ущербу, это не имеет значения. Это один из способов уменьшить беспокойство о множественных сравнениях.
Смотрите также:
источник
Чтобы исправить идеи: я возьму случай, когда вы пересекаете, независимых случайных величин таких, что для берется из . Я предполагаю, что вы хотите знать, какое из них имеет ненулевое среднее значение, формально вы хотите проверить:n (Xi)i=1,…,n i=1,…,n Xi N(θi,1)
Определение порога: вам нужно принять решений, и у вас может быть другая цель. Для данного теста определенно выберу порог и решу не принимать если .n i τi H0i |Xi|>τi
Различные варианты: Вы должны выбрать пороги и для этого у вас есть два варианта :τi
выбрать одинаковый порог для всех
выбрать разные пороговые значения для каждого (чаще всего пороговое значение для данных, см. ниже).
Различные цели: эти параметры могут быть использованы для различных целей, таких как
Управление ожиданием коэффициента ложной тревоги (или частоты ложных открытий)
Какова бы ни была ваша цель в конце, это хорошая идея использовать порог для данных.
Мой ответ на ваш вопрос: ваша интуиция связана с основной эвристикой выбора порога для данных. Это следующее (в начале процедуры Холма, которая более мощная, чем Бонферони):
Представьте, что вы уже приняли решение для самого низкогои решение состоит в том, чтобы принять для всех из них. Тогда вам нужно только сделать сравнения и вы не рискуете ошибочно отклонить ! Поскольку вы не использовали свой бюджет, вы можете пойти на немного больший риск для оставшегося теста и выбрать больший порог.| X я | H 0 i n - p H 0 ip |Xi| H0i n−p H0i
В случае ваших судей: я полагаю (и я полагаю, вы должны сделать то же самое), что оба судьи имеют одинаковые бюджеты ложных обвинений за свою жизнь. 60-летний судья может быть менее консервативным, если в прошлом он никого не обвинял! Но если он уже сделал много обвинений, он будет более консервативен и, возможно, даже больше, чем самый молодой судья.
источник
Иллюстрирующая (и забавная) статья; http://www.jsur.org/ar/jsur_ben102010.pdf ) о необходимости множественной коррекции тестирования в некоторых практических исследованиях, в которых развивается множество переменных, например, fmri. Эта короткая цитата говорит большую часть сообщения:
по моему опыту, это потрясающий аргумент, побуждающий пользователей использовать несколько тестовых исправлений.
источник