Нулевая гипотеза Манна-Уитни при неравной дисперсии

Мне просто интересно узнать о нулевой гипотезе U-критерия Манна-Уитни. Я часто вижу, что утверждалось, что нулевая гипотеза состоит в том, что две популяции имеют равные распределения. Но я думаю - если бы у меня было две нормальные популяции с одинаковым средним, но крайне неравным отклонением, тест Манна-Уитни, вероятно, не обнаружил бы эту разницу.

Я также видел, как утверждается, что нулевая гипотеза критерия Манна-Уитни равна или вероятность наблюдения из одной популяции ( ) превышает наблюдение из второй популяции ( ) (после исключение связей) равно 0,5. Кажется, это имеет немного больше смысла, но не похоже на первую нулевую гипотезу, которую я высказал. $\Pr(X>Y)=0.5$ $X$ $Y$

Я надеюсь получить немного помощи, чтобы распутать это. Спасибо!

hypothesis-testing variance wilcoxon-mann-whitney Jimj
источник

Ответы:

Тест Манна-Уитни является частным случаем теста перестановки (распределение под нулевым значением получается путем анализа всех возможных перестановок данных), а тесты перестановки имеют нулевое значение как идентичные распределения, так что это технически правильно.

Одним из способов анализа статистики теста Манна-Уитни является измерение количества раз, когда случайно выбранное значение из одной группы превышает случайно выбранное значение из другой группы. Таким образом, P (X> Y) = 0,5 также имеет смысл, и это технически является свойством равных распределений, равных нулю (при условии непрерывных распределений, где вероятность связи равна 0). Если 2 распределения одинаковы, то вероятность того, что X больше Y, равна 0,5, поскольку они оба взяты из одного и того же распределения.

Указанный случай 2 распределений, имеющих одинаковое среднее значение, но сильно различающихся дисперсий, соответствует 2-й нулевой гипотезе, но не 1-му из идентичных распределений. Мы можем провести некоторое моделирование, чтобы увидеть, что происходит с p-значениями в этом случае (теоретически они должны быть равномерно распределены):

> out <- replicate( 100000, wilcox.test( rnorm(25, 0, 2), rnorm(25,0,10) )$p.value )
> hist(out)
> mean(out < 0.05)
[1] 0.07991
> prop.test( sum(out<0.05), length(out), p=0.05 )

        1-sample proportions test with continuity correction

data:  sum(out < 0.05) out of length(out), null probability 0.05
X-squared = 1882.756, df = 1, p-value < 2.2e-16
alternative hypothesis: true p is not equal to 0.05
95 percent confidence interval:
 0.07824054 0.08161183
sample estimates:
      p 
0.07991

Ясно, что это отклоняет чаще, чем следовало бы, и нулевая гипотеза ложна (это соответствует равенству распределений, но не prob = 0.5).

Мышление с точки зрения вероятности X> Y также сталкивается с некоторыми интересными проблемами, если вы когда-либо сравниваете популяции, основанные на кости Эфрона .

Грег Сноу
источник

Привет Грег, спасибо за ответ. Похоже, вы говорите, что я обнаружил какой-то особый случай, когда тест не работает должным образом при равных распределениях null. И кроме того, нулевые гипотезы, которые я высказал, не равны. Это верно?

Джимдж

Манн-Уитни не чувствителен к изменениям дисперсии с равным средним, но он может - как вы видите с формой , обнаружить различия, которые приводят к отклонению от (например, где среднее значение и дисперсия увеличиваются вместе). Совершенно ясно, если у вас было две нормали с одинаковым средним, их различия симметричны относительно нуля. Следовательно, , что является нулевой ситуацией. $P(X>Y)=0.5$ $P(X>Y)$ $0.5$ $P(X>Y) = P(X-Y>0) = \frac{1}{2}$

Например, если у вас есть распределение являющееся экспоненциальным со средним то время как имеет экспоненциальное распределение со средним (изменение масштаба), Манн-Уитни чувствителен к этому (действительно, принимая журналы обеих сторон, его просто сдвиг местоположения, и Манн-Уитни не подвержен влиянию монотонной трансформации). $Y$ $1$ $X$ $k$

Если вас интересуют тесты, которые концептуально очень похожи на тесты Манна-Уитни, чувствительные к различиям в распределении при равенстве медиан, есть несколько таких тестов.

Там в Зигеля-Тьюки тест и тест Ансари-Бредли, например, как тесно связаны с тест Манна-Уитни-Вилкоксона два образца.

Они оба основаны на основной идее ранжирования с концов.

Если вы используете R, тест Ансари-Брэдли встроен в ... ?ansari.test

В действительности Зигель-Тьюки просто выполняет тест Манна-Уитни-Уилкоксона для рангов, рассчитанных по выборке по-разному; если вы сами ранжируете данные, вам не нужна отдельная функция для p-значений. Тем не менее, вы можете найти некоторые, как здесь:

http://www.r-statistics.com/2010/02/siegel-tukey-a-non-parametric-test-for-equality-in-variability-r-code/

(относительно комментария ttnphns под моим оригинальным ответом)

Вы бы слишком истолковали мой ответ, чтобы прочитать его как несогласное с @GregSnow в каком-либо особенно существенном смысле. Конечно, есть разница в акценте и в некоторой степени в том, о чем мы говорим, но я был бы очень удивлен, если бы за этим было много реальных разногласий.

Давайте процитируем Манна и Уитни: «Для проверки гипотезы предлагается статистика зависящая от относительных рангов и » . Это однозначно; он полностью поддерживает позицию @ GregSnow. $U$ $x$ $y$ $f=g$

Теперь давайте посмотрим, как строится статистика: « Пусть посчитает, сколько раз a предшествует . $U$ $y$ $x$ » Теперь, если их значение равно нулю, вероятность этого события равна ... но Есть и другие способы получить вероятность 0,5, и в этом смысле можно предположить, что тест может работать в других обстоятельствах. В той степени, в которой они оценивают (пересчитанную) вероятность того, что > , это подтверждает то, что я сказал. $\frac{1}{2}$ $Y$ $X$

Однако, чтобы уровни значимости были гарантированно точными, вам потребуется распределение соответствующее нулевому распределению. Это основано на предположении, что все перестановки меток групп и для комбинированных наблюдений под нулем были одинаково вероятны. Это, безусловно, имеет место при . Точно так же, как @GregSnow сказал. $U$ $X$ $Y$ $f=g$

Вопрос заключается в том, в какой степени это имеет место (т. Е. Что распределение тестовой статистики совпадает с распределением, полученным в предположении, что , или приблизительно так), для более широко выраженного нуля. $f=g$

Я считаю, что во многих ситуациях это так; в частности, для ситуаций, в том числе, но более общих, чем описанная вами (две нормальные популяции с одним и тем же средним, но крайне неравным отклонением могут быть обобщены совсем немного без изменения результирующего распределения на основе рангов), я полагаю, что распределение статистики теста оказывается, имеет тот же дистрибутив, при котором он был получен, и поэтому должен быть там действительным. Я сделал несколько симуляций, которые, кажется, поддерживают это. Тем не менее, это не всегда будет очень полезный тест (он может иметь плохую мощность).

Я не предлагаю никаких доказательств того, что это так. Я применил некоторый аргумент интуиции / волнистости рук, а также провел несколько базовых симуляций, которые предполагают, что это правда - что Манн-Уитни работает (в том смысле, что у него «правильное» распределение под нулем) гораздо шире, чем когда . $f=g$

Делайте из этого что хотите, но я не рассматриваю это как существенное несогласие с @GregSnow

Ссылка - оригинальная статья Манна и Уитни

Glen_b - Восстановить Монику
источник

Разве я вам прямо , что вы согласны с этим словами из страницы Википедии разговора Манна-Уитни:

the null hypothesis of Mann-Whitney U-test is not about the equality of distributions. Is is about the symmetry between two populations with respect to the probability of obtaining a larger observation

. И поэтому вы не согласны с ответом @ Грега, верно?

ttnphns

Я добавил некоторые обсуждения в редактирование.

Glen_b

Очень приятное дополнение. Я буду изучать его (мне всегда казалось, что в тесте MW есть нюансы, которые продолжают ускользать от меня). Между тем, вы согласитесь, если я скажу: «Поскольку статистика теста MW отражает только (в) равенство средних рангов , могут быть ситуации, когда f ~ = g [я понимаю f, g как исходные распределения, предшествующее ранжирование], но тест, тем не менее, является полностью релевантным, поскольку он продолжает работать с тем же H0, что и при f = g. Примером такой ситуации являются симметричные распределения, полностью идентичные, за исключением параметра разброса (дисперсии) ".

ttnphns

В обозначениях (Манн и Уитни, кстати), и являются плотность и . Я бы согласился с тем, что в той степени, в которой я проверил / понял обстоятельства, ваше заявление, похоже, соответствует действительности. Я подозреваю, что есть еще много о Манн-Уитни, что ускользает от меня тоже.

f

$f$

g

$g$

X

$X$

Y

$Y$

Glen_b