Тест Манна-Уитни является частным случаем теста перестановки (распределение под нулевым значением получается путем анализа всех возможных перестановок данных), а тесты перестановки имеют нулевое значение как идентичные распределения, так что это технически правильно.
Одним из способов анализа статистики теста Манна-Уитни является измерение количества раз, когда случайно выбранное значение из одной группы превышает случайно выбранное значение из другой группы. Таким образом, P (X> Y) = 0,5 также имеет смысл, и это технически является свойством равных распределений, равных нулю (при условии непрерывных распределений, где вероятность связи равна 0). Если 2 распределения одинаковы, то вероятность того, что X больше Y, равна 0,5, поскольку они оба взяты из одного и того же распределения.
Указанный случай 2 распределений, имеющих одинаковое среднее значение, но сильно различающихся дисперсий, соответствует 2-й нулевой гипотезе, но не 1-му из идентичных распределений. Мы можем провести некоторое моделирование, чтобы увидеть, что происходит с p-значениями в этом случае (теоретически они должны быть равномерно распределены):
> out <- replicate( 100000, wilcox.test( rnorm(25, 0, 2), rnorm(25,0,10) )$p.value )
> hist(out)
> mean(out < 0.05)
[1] 0.07991
> prop.test( sum(out<0.05), length(out), p=0.05 )
1-sample proportions test with continuity correction
data: sum(out < 0.05) out of length(out), null probability 0.05
X-squared = 1882.756, df = 1, p-value < 2.2e-16
alternative hypothesis: true p is not equal to 0.05
95 percent confidence interval:
0.07824054 0.08161183
sample estimates:
p
0.07991
Ясно, что это отклоняет чаще, чем следовало бы, и нулевая гипотеза ложна (это соответствует равенству распределений, но не prob = 0.5).
Мышление с точки зрения вероятности X> Y также сталкивается с некоторыми интересными проблемами, если вы когда-либо сравниваете популяции, основанные на кости Эфрона .
Манн-Уитни не чувствителен к изменениям дисперсии с равным средним, но он может - как вы видите с формой , обнаружить различия, которые приводят к отклонению от (например, где среднее значение и дисперсия увеличиваются вместе). Совершенно ясно, если у вас было две нормали с одинаковым средним, их различия симметричны относительно нуля. Следовательно, , что является нулевой ситуацией.P(X>Y)=0.5 P(X>Y) 0.5 P(X>Y)=P(X−Y>0)=12
Например, если у вас есть распределение являющееся экспоненциальным со средним то время как имеет экспоненциальное распределение со средним (изменение масштаба), Манн-Уитни чувствителен к этому (действительно, принимая журналы обеих сторон, его просто сдвиг местоположения, и Манн-Уитни не подвержен влиянию монотонной трансформации).Y 1 X k
-
Если вас интересуют тесты, которые концептуально очень похожи на тесты Манна-Уитни, чувствительные к различиям в распределении при равенстве медиан, есть несколько таких тестов.
Там в Зигеля-Тьюки тест и тест Ансари-Бредли, например, как тесно связаны с тест Манна-Уитни-Вилкоксона два образца.
Они оба основаны на основной идее ранжирования с концов.
Если вы используете R, тест Ансари-Брэдли встроен в ...
?ansari.test
В действительности Зигель-Тьюки просто выполняет тест Манна-Уитни-Уилкоксона для рангов, рассчитанных по выборке по-разному; если вы сами ранжируете данные, вам не нужна отдельная функция для p-значений. Тем не менее, вы можете найти некоторые, как здесь:
http://www.r-statistics.com/2010/02/siegel-tukey-a-non-parametric-test-for-equality-in-variability-r-code/
-
(относительно комментария ttnphns под моим оригинальным ответом)
Вы бы слишком истолковали мой ответ, чтобы прочитать его как несогласное с @GregSnow в каком-либо особенно существенном смысле. Конечно, есть разница в акценте и в некоторой степени в том, о чем мы говорим, но я был бы очень удивлен, если бы за этим было много реальных разногласий.
Давайте процитируем Манна и Уитни: «Для проверки гипотезы предлагается статистика зависящая от относительных рангов и » . Это однозначно; он полностью поддерживает позицию @ GregSnow.U x y f=g
Теперь давайте посмотрим, как строится статистика: « Пусть посчитает, сколько раз a предшествует .U y x » Теперь, если их значение равно нулю, вероятность этого события равна ... но Есть и другие способы получить вероятность 0,5, и в этом смысле можно предположить, что тест может работать в других обстоятельствах. В той степени, в которой они оценивают (пересчитанную) вероятность того, что > , это подтверждает то, что я сказал.12 Y X
Однако, чтобы уровни значимости были гарантированно точными, вам потребуется распределение соответствующее нулевому распределению. Это основано на предположении, что все перестановки меток групп и для комбинированных наблюдений под нулем были одинаково вероятны. Это, безусловно, имеет место при . Точно так же, как @GregSnow сказал.U X Y f=g
Вопрос заключается в том, в какой степени это имеет место (т. Е. Что распределение тестовой статистики совпадает с распределением, полученным в предположении, что , или приблизительно так), для более широко выраженного нуля.f=g
Я считаю, что во многих ситуациях это так; в частности, для ситуаций, в том числе, но более общих, чем описанная вами (две нормальные популяции с одним и тем же средним, но крайне неравным отклонением могут быть обобщены совсем немного без изменения результирующего распределения на основе рангов), я полагаю, что распределение статистики теста оказывается, имеет тот же дистрибутив, при котором он был получен, и поэтому должен быть там действительным. Я сделал несколько симуляций, которые, кажется, поддерживают это. Тем не менее, это не всегда будет очень полезный тест (он может иметь плохую мощность).
Я не предлагаю никаких доказательств того, что это так. Я применил некоторый аргумент интуиции / волнистости рук, а также провел несколько базовых симуляций, которые предполагают, что это правда - что Манн-Уитни работает (в том смысле, что у него «правильное» распределение под нулем) гораздо шире, чем когда .f=g
Делайте из этого что хотите, но я не рассматриваю это как существенное несогласие с @GregSnow
Ссылка - оригинальная статья Манна и Уитни
источник
the null hypothesis of Mann-Whitney U-test is not about the equality of distributions. Is is about the symmetry between two populations with respect to the probability of obtaining a larger observation
. И поэтому вы не согласны с ответом @ Грега, верно?