Как правильно применять тест Nemenyi post-hoc после теста Фридмана

11

Я сравниваю производительность нескольких алгоритмов на нескольких наборах данных. Поскольку эти показатели производительности не гарантируются для нормального распределения, я выбрал тест Фридмана с последующим специальным тестом Немени, основанным на Демшаре (2006) .

Затем я нашел другую статью, в которой, помимо предложения других методов, таких как тест Quade, с последующим специальным тестом Шеффера, они применяют тест Немени по-другому.

Как правильно применить тест Nemenyi post-hoc?

1. Используя статистику Studentized range?

В статье Демшара говорится, что следует отвергнуть нулевую гипотезу (нет разницы в производительности двух алгоритмов), если средняя разность рангов больше, чем критическое расстояние CD с

СDзнак равноQαК(К+1)6N

«где критические значения qα основаны на статистике изученного диапазона, деленной на ».2,

После некоторых раскопок я обнаружил, что вы можете найти эти «критические значения» для определенных альфа, например, в таблице дляαзнак равно0,05 для бесконечных степеней свободы (внизу каждой таблицы).

2. или используя нормальное распределение?

Как раз тогда, когда я подумал, что знаю, что делать, я нашел другую газету, которая снова смутила меня, потому что они использовали только нормальное распространение. Демшар об этом говорит на странице 12:

Статистика теста для сравнения i-го и j-го классификатора с использованием этих методов: Значение z используется для нахождения соответствующей вероятности из таблицы нормального распределения, которая затем сравнивается с соответствующей . Тесты отличаются тем, как они корректируют значение чтобы компенсировать множественные сравнения.

Zзнак равно(ря-рJ)К(К+1)6N
αα

В этом параграфе он говорил о сравнении всех алгоритмов с алгоритмом управления, но замечание «различаются по способу их корректировки ... для компенсации множественных сравнений» предполагает, что это также должно выполняться для теста Немени.

Поэтому мне кажется логичным вычислить значение p на основе тестовой статистики , которая обычно распределяется, и исправить ее путем деления на .ZК(К-1)/2

Однако это приводит к совершенно разным ранговым различиям, при которых можно отказаться от нулевой гипотезы. А сейчас я застрял и не знаю, какой метод применить. Я сильно склоняюсь к тому, который использует нормальное распределение , потому что это проще и логичнее для меня. Мне также не нужно искать значения в таблицах, и я не привязан к определенным значениям значимости.

Опять же, я никогда не работал со статистикой диапазонов и не понимаю ее.

караул
источник

Ответы:

5

Я тоже только начал смотреть на этот вопрос.

Как упоминалось ранее, когда мы используем нормальное распределение для вычисления p-значений для каждого теста, то эти p-значения не учитывают множественное тестирование. Чтобы исправить это и контролировать частоту ошибок по семейным обстоятельствам, нам нужны некоторые корректировки. Bonferonni, то есть деление уровня значимости или умножение необработанных p-значений на количество тестов, является только одной возможной поправкой. Существует большое количество других множественных тестирований поправок p-значения, которые во многих случаях менее консервативны.

Эти поправки p-значения не принимают во внимание конкретную структуру проверки гипотез.

Я больше знаком с парным сравнением исходных данных вместо рангово-преобразованных данных, как в тестах Крускала-Уоллиса или Фридмана. В этом случае, который является тестом HSD Тьюки, статистика теста для множественного сравнения распределяется в соответствии с распределением изученных диапазонов, которое является распределением для всех парных сравнений в предположении независимых выборок. Он основан на вероятностях многомерного нормального распределения, которые могут быть рассчитаны путем численного интегрирования, но обычно используются из таблиц.

Я полагаю, поскольку я не знаю теорию, так это то, что распределенное распределение по диапазону может применяться к ранговым тестам таким же образом, как в парных сравнениях Tukey HSD.

Таким образом, использование (2) нормального распределения плюс множественные корректировки p-значений тестирования и использование (1) распределенных диапазонов измерений являются двумя различными способами получения приблизительного распределения статистики теста. Однако, если допущения относительно использования изученного распределения диапазонов удовлетворяются, тогда это должно обеспечить лучшее приближение, поскольку оно предназначено для конкретной задачи всех парных сравнений.

Josef
источник
1

Насколько я знаю, сравнивая только 2 алгоритма, Демшар предлагает критерий рангового знака Вилкоксона, а не Фридмана + posthoc. К сожалению, я так же запутан, как и вы, когда дело доходит до расшифровки того, что должно означать деление Демшара на k-1.

5xum
источник
1
Деление на (k-1) - это сравнение нескольких алгоритмов с методом управления. Но это друг против друга, так что NxN. Разделительную часть я могу понять, но отношение к распределению изучаемого диапазона выходит за рамки моего понимания.
Часовой
@Sentry: Вы должны умножить на коэффициент корректировки здесь, а не умножать. Пожалуйста, смотрите мой ответ выше.
Крис
0

Я также наткнулся на вопрос, вычислять ли значение p из нормального или изученного t-распределения. К сожалению, я до сих пор не могу ответить, потому что разные газеты сообщают разные методы.

Тем не менее, для расчета скорректированных p-значений необходимо умножить нескорректированное p-значение на поправочный коэффициент, например, p * (k-1) в случае сравнения с одним методом управления или p * ((k * (k-1) )) / 2) для nxn сравнений.

То, что вы должны разделить на поправочный коэффициент, это альфа-значение, если сравнивать с ненастроенными p.

Крис
источник