Можно ли провести анализ мощности для U-теста Крускала-Уоллиса и Манна-Уитни? Если да, есть ли пакеты / функции R, которые его выполняют?
r
nonparametric
power-analysis
kruskal-wallis
Джорджо Спедикато
источник
источник
Ответы:
Конечно, можно рассчитать мощность.
Чтобы быть более конкретным - если вы делаете достаточно предположений, чтобы получить ситуацию, в которой вы можете рассчитать (каким-то образом) вероятность отклонения, вы можете вычислить мощность.
В Wilcoxon-Mann-Whitney, если (например) вы принимаете формы распределения (делаете предположения о форме (формах) распределения) и делаете некоторые предположения о масштабах (спредах) и конкретных значениях местоположений или разнице в местоположениях вы можете вычислить мощность либо алгебраически, либо с помощью численного интегрирования; если вы не можете смоделировать уровень отказа.
Так, например, если мы предполагаем выборку из распределений с заданной разностью местоположений (стандартизированной для общей шкалы), то, учитывая размеры выборки, мы могли бы смоделировать множество наборов данных, удовлетворяющих всем этим условиям, и таким образом получить оценку степени отклонения. Итак, давайте предположим, что у нас есть две выборки t 5 распределений (семейство масштабов местоположения) с единичным масштабом ( σ = 1 ) - без потери общности - и с разностью местоположений δ = μ 2 - μ 1 = 1 . Опять же, без ограничения общности мы могли бы взять μ 1 = 0t5 t5 σ=1 δ=μ2−μ1=1 μ1=0 , Тогда для некоторого определенного размера выборки - (скажем) - мы можем смоделировать наблюдения и, следовательно, мощность для этого конкретного значения δ / σ (то есть 1 ). Вот быстрый пример в R:n1=6,n2=9 δ/σ 1
Три подобных моделирования дали показатели отклонения 0,321, 0,321 и 0,316; мощность, по-видимому, находится в районе 0,32 (вы можете вычислить доверительный интервал только из одной из этих симуляций, поскольку счетчик отклонений является биномиальным ). На практике я склонен использовать более крупные симуляции, но если вы симулируете много разных 's или δn δ , вы можете не захотеть идти намного выше, чем 10000 симуляций для каждой.
Делая это для многих значений смещения местоположения, вы даже можете получить кривую мощности для этого набора обстоятельств, поскольку смещение местоположения изменяется, если вы хотите.
Обратите внимание, что хотя эти тесты не распространяются (для непрерывных распределений) при нулевом значении, поведение отличается при различных предположениях о распределении для альтернатив.
Ситуация для Крускала-Уоллиса аналогична, но вам нужно указать больше смещений (или любой другой ситуации, на которую вы смотрите).
График в этом ответе показывает сравнение кривой мощности для парного t-теста с имитированной мощностью для теста с ранжированием со знаком при конкретном размере выборки по множеству стандартизированных сдвигов местоположения для выборки из нормальных распределений с заданной корреляцией между парами. Аналогичные расчеты можно сделать для Манна-Уитни и Крускала-Уоллиса.
источник