Почему корреляция рангов Пирсона действительна, несмотря на предположение о нормальности?

9

В настоящее время я читаю предположения о корреляциях Пирсона. Важным предположением для последующего t-критерия является то, что обе переменные происходят из нормальных распределений; если они этого не делают, то рекомендуется использовать альтернативные меры, такие как Spearman rho. Корреляция Спирмена вычисляется как корреляция Пирсона, используя только ранги X и Y вместо самих X и Y, верно?

Мой вопрос: если входные переменные в корреляции Пирсона должны быть нормально распределены, почему расчет корреляции Спирмена является действительным, даже если входные переменные являются рангами? Мои ранги, конечно, не из нормальных распределений ...

Единственное объяснение, которое я нашел до сих пор, заключается в том, что значение rho может быть проверено не так, как в t-тесте корреляции Пирсона (таким образом, что не требует нормальности), но пока я не нашел формулы. Однако, когда я запустил несколько примеров, значения p для rho и t-критерия корреляции рангов Пирсона всегда совпадали, за исключением последних нескольких цифр. Для меня это не выглядит принципиально иной процедурой.

Будем благодарны за любые объяснения и идеи!

GST95
источник

Ответы:

7

Нормальность не требуется для расчета корреляции Пирсона; просто некоторые формы вывода о соответствующей численности населения основаны на нормальных предположениях (КИ и тесты гипотез).

Если у вас нет нормальности, подразумеваемые свойства этой конкретной формы вывода не сохранятся.

В случае корреляции Спирмена у вас нет нормальности, но это нормально, потому что расчеты логического вывода для корреляции Спирмена (такие как проверка гипотезы) не основаны на допущении нормальности.

Они получены на основе набора парных рангов из непрерывного двумерного распределения; в этом случае тест гипотезы использует распределение перестановок статистики теста на основе рангов.

Когда обычные предположения для вывода с корреляцией Пирсона верны (двумерная нормальность), корреляция Спирмена обычно очень близка (хотя в среднем немного ближе к 0).

(Поэтому, когда вы могли бы использовать Пирсона, Копейщик часто справляется с этим хорошо. Если бы у вас были почти двумерные нормальные данные, кроме некоторого загрязнения каким-либо другим процессом (который вызвал выбросы), Копейщик был бы более надежным способом оценки корреляции в незагрязненное распределение.)

Glen_b - Восстановить Монику
источник
Спасибо, ссылка на распределение перестановок полезна!
GST95
«Копейщик был бы более надежным способом оценки корреляции». Если говорить точнее, Спирман оценил бы связь , а НЕ линейную корреляцию.
Landroni
1
ρρρ
1
@landroni ... Такая ситуация может возникнуть, когда у вас есть основной процесс, который хорошо себя ведет, и какой-то загрязняющий процесс, который может быть очень экстремальным, но происходит только изредка. Если вы заинтересованы в оценке корреляции незагрязненного процесса, корреляция Пирсона очень чувствительна к загрязнению в гораздо большей степени, чем Спирман.
Glen_b
2

когда я запускал несколько примеров, значения p для rho и t-критерия корреляции рангов Пирсона всегда совпадали, за исключением последних нескольких цифр

Ну, тогда вы использовали неправильные примеры!

a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')

    Pearson's product-moment correlation

data:  a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.08621009  0.90762506
sample estimates:
      cor 
0.6130088 

cor.test(a,b,method='spearman')

    Spearman's rank correlation rho

data:  a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho 
  1 

abρb

И наоборот, хотя aи bимеют идеальную ранговую корреляцию, их коэффициент корреляции Пирсона меньше 1. Это показывает, что корреляция Пирсона не отражает ранги.
Корреляция Пирсона отражает линейную функцию, ранговая корреляция просто монотонная функция. В случае обычных данных они будут сильно похожи друг на друга, и я подозреваю, что именно поэтому ваши данные не показывают больших различий между Спирманом и Пирсоном.

Для практического примера рассмотрим следующее; Вы хотите увидеть, весят ли высокие люди больше. Да, это глупый вопрос ... но просто предположите, что это то, что вас волнует. Теперь масса не масштабируется линейно с весом, так как высокие люди также шире маленьких людей; поэтому вес не является линейной функцией роста. Тот, кто на 10% выше вас (в среднем) более чем на 10% тяжелее. Вот почему индекс массы тела использует куб в знаменателе.
Следовательно, вы предполагаете линейную корреляцию, чтобы неточно отражать соотношение рост / вес. В отличие от этого, ранг корреляции нечувствителен к раздражающим законам физики и биологии в этом случае; он не отражает, будут ли люди расти тяжелее линейно с ростом, он просто отражает, являются ли более высокие люди (более высокого ранга по одной шкале) тяжелее (более высокого ранга по другой шкале).

Более типичным примером может служить рейтинг анкет, подобный Лайкерту, например, люди оценивают что-то как «идеальное / хорошее / достойное / посредственное / плохое / ужасное». «идеальный» так же далек от «приличного», как «приличный» от «плохого» в масштабе , но можем ли мы действительно сказать, что расстояние между ними одинаково? Линейная корреляция не обязательно подходит. Ранговая корреляция более естественная.

Чтобы более точно ответить на ваш вопрос: нет, значения p для корреляций Пирсона и Спирмена не должны рассчитываться по-разному . Многое отличается в обоих случаях, как концептуально, так и численно, но если статистика теста эквивалентна, значение p будет эквивалентным.

По вопросу о предположении нормальности в корреляции Пирсона, см. Это .
В более общем смысле, другие люди разработали гораздо лучше, чем я, в отношении параметрических и непараметрических корреляций (также см. Здесь ) и того, что это означает в отношении предположений о распределении.

Йона
источник
Спасибо! В следующий раз я обязательно поэкспериментирую с примерами. :)
GST95
1
Нет, подожди, на самом деле это был не мой вопрос. Я не сравнивал method = "pearson" с методом method = "spearman" версий x и y. Я сравнил cor.test(x, y, method = "spearman")с cor.test(rank(x), rank(y), method = "pearson"). Эти оценки будут идентичны независимо от того, какие данные выбраны. Спасибо, тем не менее! :)
GST95
@ GST95, корреляция Спирмена - это точно корреляция Пирсона, выполненная на данных с преобразованием ранга. Ваши два «метода» - это действительно один и тот же метод.
Деннис
@Dennis, точно, я не сравнивал (идентичные) коэффициенты rho, но p-значения, чтобы видеть, были ли они оба получены с t-тестом.
GST95