Боюсь, что связанные вопросы не ответили на мои. Мы оцениваем показатели> 2 классификаторов (машинное обучение). Наша нулевая гипотеза состоит в том, что показатели не отличаются. Мы проводим параметрический (ANOVA) и непараметрический (Friedman) тесты, чтобы оценить эту гипотезу. Если они важны, мы хотим выяснить, какие классификаторы отличаются в заданном квесте.
Мой вопрос двоякий:
1) Нужна ли вообще коррекция p-значений после многократного сравнения? Сайт немецкой Википедии на «Alphafehler Kumulierung» говорит, что проблема возникает, только если несколько гипотез проверяются на одних и тех же данных. При сравнении классификаторов (1,2), (1,3), (2,3) данные только частично перекрываются. Требуется ли исправить значения p?
2) Коррекция P-значения часто используется после попарного тестирования с помощью t-критерия. Это также необходимо при проведении специальных специальных тестов, таких как тест Немени (непараметрический) или тест Тьюки HSD? Этот ответ говорит «нет» для HSD Тьюки: корректен ли тест Tukey HSD для множественных сравнений? , Есть ли правило, или я должен искать это для каждого потенциального пост-специального теста?
Благодаря!
Ответы:
Ответ на вопрос 1
Вам необходимо настроить множественные сравнения, если вас волнует вероятность того, что вы допустите ошибку типа I. Простая комбинация метафоры / мысленного эксперимента может помочь:
Если вас не волнуют ошибки, и вы не заботитесь о людях, которые постоянно и насмешливо направляют ваше внимание на определенную карикатуру о желе , тогда продолжайте и не настраивайте на множественные сравнения.
Проблема «одних и тех же данных» возникает в семейных методах исправления ошибок (например, Бонферрони, Холм-Сидак и т. Д.), Поскольку понятие «семья» несколько расплывчато. Однако методы ложного обнаружения (например, Бенджамини и Хохберг, Бенджамини и Йукетели и т. Д.) Обладают свойством того, что их результаты являются надежными при разных группах умозаключений.
Ответ на вопрос 2
Большинство парных тестов требуют коррекции, хотя существуют стилистические и дисциплинарные различия в том, что называют тестом. Например, некоторые люди ссылаются на « t- тесты Бонферрони » (что является изящной уловкой, поскольку Бонферрони не разработал ни t- теста, ни корректировки Бонферрони для множественных сравнений :). Я лично нахожу это неудовлетворительным, так как (1) я хотел бы провести различие между проведением группы статистических тестов и корректировкой для множественных сравнений, чтобы эффективно понять сделанные мной выводы, и (2) когда кто-то приходит вместе с новый парный тест, основанный на четком определении , тогда я знаю, что могу выполнить корректировки для нескольких сравнений.
источник