В настоящее время я читаю предположения о корреляциях Пирсона. Важным предположением для последующего t-критерия является то, что обе переменные происходят из нормальных распределений; если они этого не делают, то рекомендуется использовать альтернативные меры, такие как Spearman rho. Корреляция Спирмена вычисляется как корреляция Пирсона, используя только ранги X и Y вместо самих X и Y, верно?
Мой вопрос: если входные переменные в корреляции Пирсона должны быть нормально распределены, почему расчет корреляции Спирмена является действительным, даже если входные переменные являются рангами? Мои ранги, конечно, не из нормальных распределений ...
Единственное объяснение, которое я нашел до сих пор, заключается в том, что значение rho может быть проверено не так, как в t-тесте корреляции Пирсона (таким образом, что не требует нормальности), но пока я не нашел формулы. Однако, когда я запустил несколько примеров, значения p для rho и t-критерия корреляции рангов Пирсона всегда совпадали, за исключением последних нескольких цифр. Для меня это не выглядит принципиально иной процедурой.
Будем благодарны за любые объяснения и идеи!
Ну, тогда вы использовали неправильные примеры!
a
b
b
И наоборот, хотя
a
иb
имеют идеальную ранговую корреляцию, их коэффициент корреляции Пирсона меньше 1. Это показывает, что корреляция Пирсона не отражает ранги.Корреляция Пирсона отражает линейную функцию, ранговая корреляция просто монотонная функция. В случае обычных данных они будут сильно похожи друг на друга, и я подозреваю, что именно поэтому ваши данные не показывают больших различий между Спирманом и Пирсоном.
Для практического примера рассмотрим следующее; Вы хотите увидеть, весят ли высокие люди больше. Да, это глупый вопрос ... но просто предположите, что это то, что вас волнует. Теперь масса не масштабируется линейно с весом, так как высокие люди также шире маленьких людей; поэтому вес не является линейной функцией роста. Тот, кто на 10% выше вас (в среднем) более чем на 10% тяжелее. Вот почему индекс массы тела использует куб в знаменателе.
Следовательно, вы предполагаете линейную корреляцию, чтобы неточно отражать соотношение рост / вес. В отличие от этого, ранг корреляции нечувствителен к раздражающим законам физики и биологии в этом случае; он не отражает, будут ли люди расти тяжелее линейно с ростом, он просто отражает, являются ли более высокие люди (более высокого ранга по одной шкале) тяжелее (более высокого ранга по другой шкале).
Более типичным примером может служить рейтинг анкет, подобный Лайкерту, например, люди оценивают что-то как «идеальное / хорошее / достойное / посредственное / плохое / ужасное». «идеальный» так же далек от «приличного», как «приличный» от «плохого» в масштабе , но можем ли мы действительно сказать, что расстояние между ними одинаково? Линейная корреляция не обязательно подходит. Ранговая корреляция более естественная.
Чтобы более точно ответить на ваш вопрос: нет, значения p для корреляций Пирсона и Спирмена не должны рассчитываться по-разному . Многое отличается в обоих случаях, как концептуально, так и численно, но если статистика теста эквивалентна, значение p будет эквивалентным.
По вопросу о предположении нормальности в корреляции Пирсона, см. Это .
В более общем смысле, другие люди разработали гораздо лучше, чем я, в отношении параметрических и непараметрических корреляций (также см. Здесь ) и того, что это означает в отношении предположений о распределении.
источник
cor.test(x, y, method = "spearman")
сcor.test(rank(x), rank(y), method = "pearson")
. Эти оценки будут идентичны независимо от того, какие данные выбраны. Спасибо, тем не менее! :)