Когда следует использовать критерий суммы рангов Уилкоксона вместо непарного t-критерия?

26

Это дополнительный вопрос к тому, что Фрэнк Харрелл написал здесь :

По моему опыту, требуемый размер выборки для точного распределения t часто больше, чем размер выборки под рукой. Тест на звание ранга Уилкоксона чрезвычайно эффективен, как вы сказали, и он надежен, поэтому я почти всегда предпочитаю его тесту t

Если я правильно понимаю - при сравнении местоположения двух несопоставленных выборок мы предпочли бы использовать критерий суммы рангов Уилкоксона по сравнению с непарным t-тестом, если размеры наших выборок невелики.

Существует ли теоретическая ситуация, когда мы предпочли бы критерий суммы рангов Уилкоксона, а не непарный t-критерий, даже если размеры выборки в наших двух группах относительно велики?

Моя мотивация для этого вопроса проистекает из наблюдения, что для одного выборочного t-критерия использование его для не очень малой выборки асимметричного распределения приведет к неправильной ошибке типа I:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error
Таль Галили
источник
1
Мне 0,0572 кажется достаточно близко к 0,05.
mark999
Привет Марк - при проведении 100000 повторений нулевой гипотезы мы не ожидаем получить этот уровень разницы от 0,05. Как правило, мы ожидаем, что разница плюс плюс минус что-то вроде двухкратного квадрата (0,05 * 0,95 / 100000) от 0,05
Тал Галили
1
Я согласен, что это неправильно. Я просто имел в виду, что это кажется достаточно близко для практических целей.
mark999
1
Смежный вопрос: как выбрать t-тест или непараметрический тест, например, Уилкоксон в небольших выборках , который учитывает как парные, так и непарные тесты, а также альтернативы Уилкоксону, такие как Brunner-Munzel. Есть также отличный ответ Фрэнка Харрелла, который объясняет, почему он чувствует себя оправданным в своем подходе более подробно, чем приведенная выше выдержка (например, важность инвариантности рангов при монотонной трансформации).
Серебряная рыба
ЧАС0:μзнак равно50

Ответы:

23

Да, есть. Например, любая выборка из распределений с бесконечной дисперсией разрушит t-критерий, но не Вилкоксон. Ссылаясь на непараметрические статистические методы (Холландер и Вулф), я вижу, что асимптотическая относительная эффективность (ARE) Уилкоксона относительно t-критерия составляет 1,0 для равномерного распределения, 1,097 (т. Е. Уилкоксон лучше) для логистики, 1,5 для двойной экспоненциальный (Лаплас) и 3,0 для экспоненциального.

Ходжес и Леманн показали, что минимальная ARE Уилкоксона по сравнению с любым другим тестом составляет 0,864, поэтому вы никогда не сможете потерять эффективность более чем на 14%, используя ее по сравнению с чем-либо еще. (Конечно, это асимптотический результат.) Следовательно, использование Уилкоксоном Фрэнка Харрелла в качестве дефолта, вероятно, должно быть принято почти всеми, включая меня.

Редактировать: Отвечая на последующий вопрос в комментариях, для тех, кто предпочитает доверительные интервалы, оценка Ходжеса-Лемана является оценкой, которая «соответствует» критерию Уилкоксона, и доверительные интервалы могут быть построены вокруг этого.

jbowman
источник
1
Есть ли простой способ получить доверительный интервал, если использовать критерий Уилкоксона? Кажется, это побуждает людей уделять слишком большое внимание p-значению, даже больше, чем при использовании параметрического метода.
mark999
Да, оценщик Ходжеса-Лемана является релевантным оценщиком, и я отредактировал основную часть ответа, чтобы будущие читатели не проходили через комментарии.
Jbowman
Спасибо jbowman. Я не знаком с оценкой Ходжеса-Лемана, но посмотрим, что я могу узнать об этом.
mark999
3
biostat.mc.vanderbilt.edu/WilcoxonSoftware показывает, как использовать R для получения оценки Ходжса -Лемана и ее доверительного интервала.
Фрэнк Харрелл
1
(+1) от грубого антирангового традиционалиста. Тем не менее, проблема для ранговых тестов заключается в том, что эта гипотеза является неопределенной. Как правило, это не та же самая гипотеза, что и для t-критерия. T-критерий всегда проверяет среднюю разницу, Уилкоксон проверяет средневзвешенную разницу рангов. Конечно, если разность среднего ранга статистически значима, мы знаем, что распределения должны отличаться, даже если их средние значения одинаковы. Ни один из тестов не предназначен для обнаружения различий во всех случаях. Я говорю об этом только потому, что поддерживаю интерпретируемость. (1/2)
АдамО
24

Позвольте мне вернуться к нашей дискуссии в комментариях к этому вашему вопросу. Критерий суммы Уилкоксона эквивалентен U-критерию Манна-Уитни (и его прямое расширение для более чем двух выборок называется тестом Крускала-Уоллиса). В Википедии, а также в этом тексте вы можете видеть, что Манн-Уитни (или Крускал-Уоллис) обычно сравнивает не средние и не средние значения. Он сравнивает общую распространенность значений: какой из образцов «стохастически больше». Тест распространяется бесплатно. Т-тест сравнивает средства. Это предполагает нормальное распределение. Итак, тесты предполагают разные гипотезы, В большинстве случаев мы не планируем конкретно сравнивать средства, а хотим знать, какая выборка больше по значениям, и это делает тест Манна-Уитни для нас тестом по умолчанию. С другой стороны, когда оба распределения симметричны, задача проверки, является ли один образец «большим», чем другой, вырождается в задачу сравнения двух средних, а затем, если распределения нормальные с равными дисперсиями, t-критерий становится несколько более могущественный.

ttnphns
источник
+1 за привязку вашего ответа к значению проверяемых гипотез.
Джош Хеманн
Под «какой из выборок« стохастически больше »», вы имеете в виду «какой из образцов обычно принимает более высокие значения по сравнению с другим»? Если нет, что ты имеешь в виду? Не могли бы вы подробнее остановиться на этом, пожалуйста?
Эрдоган СЕВЕР
1
@ Эрдоган, да, мы можем сказать, как ты сказал. Строгая формулировка такова: в случайно выбранной паре объектов, по одному от каждой выборки, объект из «стохастически более доминирующей» выборки будет выше (по значению), чем объект из другой выборки с вероятностью> 0,5.
ttnphns