Я получаю этот вопрос достаточно часто в своей статистической консультационной работе, поэтому я решил опубликовать его здесь. У меня есть ответ, который размещен ниже, но мне было интересно услышать, что говорят другие.
Вопрос: Если у вас есть две переменные, которые обычно не распределены, следует ли использовать rho Спирмена для корреляции?
correlation
normality-assumption
pearson-r
spearman-rho
Джером англим
источник
источник
Ответы:
Корреляция Пирсона является мерой линейной зависимости между двумя непрерывными случайными величинами. Он не принимает нормальности, хотя допускает конечные дисперсии и конечную ковариацию. Когда переменные являются двумерными нормальными, корреляция Пирсона обеспечивает полное описание ассоциации.
Корреляция Спирмена относится к разрядам и, таким образом, дает меру монотонной связи между двумя непрерывными случайными величинами. Это также полезно для порядковых данных и устойчиво к выбросам (в отличие от корреляции Пирсона).
Распределение любого коэффициента корреляции будет зависеть от базового распределения, хотя оба они асимптотически нормальны из-за центральной предельной теоремы.
источник
Не забудь тау Кендалла ! Роджер Ньюсон утверждал, что превосходство Кендалла τ a над корреляцией Спирмена r S является мерой корреляции на основе рангов в статье, полный текст которой теперь свободно доступен в Интернете:
Ньюсон Р. Параметры, стоящие за «непараметрической» статистикой: тау Кендалла, Сомерса D и срединные различия . Stata Journal 2002; 2 (1): 45-64.
Он ссылается (на p47) Kendall & Gibbons (1990) , как утверждают , что»... доверительные интервалы для Спирмена г S менее надежны и менее интерпретированы , чем доверительные интервалы для Кендалла т - параметров, но образец Спирмена г S гораздо легче рассчитывается без компьютера »(что уже не имеет большого значения, конечно). К сожалению, у меня нет легкого доступа к копии их книги:
Кендалл, М.Г. и Дж. Д. Гиббонс. 1990. Ранговые методы корреляции . 5-е изд. Лондон: Гриффин.
источник
С прикладной точки зрения меня больше интересует выбор подхода, который суммирует отношения между двумя переменными таким образом, чтобы это соответствовало моему вопросу исследования. Я думаю, что определение метода для получения точных стандартных ошибок и p-значений - это вопрос, который должен стоять на втором месте. Даже если вы решили не полагаться на асимптотику, всегда есть возможность загрузиться или изменить предположения о распределении.
Как правило, я предпочитаю корреляцию Пирсона, потому что (а) она больше соответствует моим теоретическим интересам; (б) это обеспечивает более прямую сопоставимость результатов исследований, потому что большинство исследований в моей области сообщают о корреляции Пирсона; и (c) во многих случаях существует минимальная разница между коэффициентами корреляции Пирсона и Спирмена.
Однако есть ситуации, когда я думаю, что корреляция Пирсона по необработанным переменным вводит в заблуждение.
В обоих вышеупомянутых случаях я бы посоветовал исследователям либо рассмотреть стратегии корректировки (например, преобразования, удаление / корректировка выбросов), прежде чем применять корреляцию Пирсона, или использовать ро Спирмена.
источник
обновленный
Вопрос требует от нас выбора между методом Пирсона и Спирмена, когда ставится под сомнение нормальность . Ограниченный этой проблемой, я думаю, что следующий документ должен сообщить чье-либо решение:
Если вас попросят выбрать между Спирманом и Пирсоном, когда нарушается нормальность, стоит отстаивать бесплатную альтернативу, то есть метод Спирмена.
Ранее ..
Корреляция Спирмена является мерой корреляции ранга; он непараметрический и не основывается на предположении о нормальности.
Распределение выборки для корреляции Пирсона предполагает нормальность; в частности, это означает, что, хотя вы можете его вычислить, выводы, основанные на проверке значимости, могут быть неверными.
Как указывает Роб в комментариях, с большой выборкой это не проблема. Однако при небольших выборках, где нормальность нарушается, корреляция Спирмена должна быть предпочтительнее.
Обновление Обдумывая комментарии и ответы, мне кажется, что это сводится к обычным дебатам по непараметрическим и параметрическим тестам. Большая часть литературы, например, по биостатистике, не имеет дело с большими образцами. Я, как правило, не кавалерию, полагаясь на асимптотику. Возможно, это оправдано в этом случае, но это не совсем очевидно для меня.
источник