Я сравниваю производительность нескольких алгоритмов на нескольких наборах данных. Поскольку эти показатели производительности не гарантируются для нормального распределения, я выбрал тест Фридмана с последующим специальным тестом Немени, основанным на Демшаре (2006) .
Затем я нашел другую статью, в которой, помимо предложения других методов, таких как тест Quade, с последующим специальным тестом Шеффера, они применяют тест Немени по-другому.
Как правильно применить тест Nemenyi post-hoc?
1. Используя статистику Studentized range?
В статье Демшара говорится, что следует отвергнуть нулевую гипотезу (нет разницы в производительности двух алгоритмов), если средняя разность рангов больше, чем критическое расстояние CD с
«где критические значения qα основаны на статистике изученного диапазона, деленной на ».
После некоторых раскопок я обнаружил, что вы можете найти эти «критические значения» для определенных альфа, например, в таблице для для бесконечных степеней свободы (внизу каждой таблицы).
2. или используя нормальное распределение?
Как раз тогда, когда я подумал, что знаю, что делать, я нашел другую газету, которая снова смутила меня, потому что они использовали только нормальное распространение. Демшар об этом говорит на странице 12:
Статистика теста для сравнения i-го и j-го классификатора с использованием этих методов: Значение z используется для нахождения соответствующей вероятности из таблицы нормального распределения, которая затем сравнивается с соответствующей . Тесты отличаются тем, как они корректируют значение чтобы компенсировать множественные сравнения.
В этом параграфе он говорил о сравнении всех алгоритмов с алгоритмом управления, но замечание «различаются по способу их корректировки ... для компенсации множественных сравнений» предполагает, что это также должно выполняться для теста Немени.
Поэтому мне кажется логичным вычислить значение p на основе тестовой статистики , которая обычно распределяется, и исправить ее путем деления на .
Однако это приводит к совершенно разным ранговым различиям, при которых можно отказаться от нулевой гипотезы. А сейчас я застрял и не знаю, какой метод применить. Я сильно склоняюсь к тому, который использует нормальное распределение , потому что это проще и логичнее для меня. Мне также не нужно искать значения в таблицах, и я не привязан к определенным значениям значимости.
Опять же, я никогда не работал со статистикой диапазонов и не понимаю ее.
Я также наткнулся на вопрос, вычислять ли значение p из нормального или изученного t-распределения. К сожалению, я до сих пор не могу ответить, потому что разные газеты сообщают разные методы.
Тем не менее, для расчета скорректированных p-значений необходимо умножить нескорректированное p-значение на поправочный коэффициент, например, p * (k-1) в случае сравнения с одним методом управления или p * ((k * (k-1) )) / 2) для nxn сравнений.
То, что вы должны разделить на поправочный коэффициент, это альфа-значение, если сравнивать с ненастроенными p.
источник