Как выбрать соотношение Пирсона и Спирмена?

119

Как я знаю , когда выбирать между Спирменом и Пирсоном ? Моя переменная включает в себя удовлетворенность, и оценки были интерпретированы с использованием суммы оценок. Тем не менее, эти оценки также могут быть ранжированы.гρр

амеба
источник
2
см. также этот вопрос о Пирсоне и Спирмене для ненормальных данных stats.stackexchange.com/questions/3730/…
Джером Энглим
1
в случае нормальных данных, произвести Pearson. в случае ненормальных данных, произвести копейщика.

Ответы:

137

Если вы хотите изучить свои данные, то лучше всего рассчитать и то и другое, поскольку соотношение между корреляциями Спирмена (S) и Пирсона (P) даст некоторую информацию. Вкратце, S вычисляется по разрядам и поэтому отображает монотонные отношения, в то время как P соответствует истинным значениям и отображает линейные отношения.

В качестве примера, если вы установите:

x=(1:100);  
y=exp(x);                         % then,
corr(x,y,'type','Spearman');      % will equal 1, and 
corr(x,y,'type','Pearson');       % will be about equal to 0.25

Это связано с тем, что монотонно возрастает с ростом x, поэтому корреляция Спирмена идеальна, но не линейна, поэтому корреляция Пирсона несовершенна. YИкс

corr(x,log(y),'type','Pearson');  % will equal 1

Делать то и другое интересно, потому что если у вас S> P, это означает, что у вас есть корреляция, которая является монотонной, но не линейной. Так как в статистике хорошо иметь линейность (это проще), вы можете попытаться применить преобразование к (такой журнал).Y

Я надеюсь, что это помогает облегчить понимание различий между типами корреляций.

Bonoboticians
источник
2
Я предполагаю, что это дано из того, что вы уже сказали, но я просто хочу подтвердить, что S <P не может произойти.
Джонатан Тиле
9
@JonathanThiele вполне возможно иметь S <P. Например, наборы II и IV из квартетов Анскомба демонстрируют это поведение. Также посмотрите этот вопрос: stats.stackexchange.com/questions/27127/…
atomicules
1
@atomicules Спасибо за информацию. Я только что проверил корреляции в квартете Анскомба, и ваша ссылка была полезной.
Джонатан Тиле
Как вы можете включить корреляции Пирсона и Спирсона в одну презентацию программы? - Я думаю, что здесь дело stackoverflow.com/a/40523080/54964 - - У меня многофакторная проблема, поэтому я думаю, что Спирсон будет действительно целесообразно включить, и я не могу идти только с Пирсоном.
Лео Леопольд Герц 준영
Этот подход я обычно использую, поскольку он имеет дополнительное преимущество, заключающееся в обходе кропотливого обоснования одного теста по сравнению с другим, особенно при проверке корреляции между многими переменными. Вместо того, чтобы исследовать каждую переменную, чтобы увидеть, выполнены ли предположения о корреляции Пирсона или Спирмена, просто запустите оба на всем. Во многих практических приложениях они дают аналогичные показатели значимости ассоциации, поэтому вам нужно копать глубже только в тех немногих случаях, когда их результаты сильно различаются, и это интересные случаи, о которых так или иначе можно узнать больше.
Ядерный Ван
50

Кратчайший и наиболее правильный ответ:

Линейные отношения тестов Пирсона , монотонные отношения Гармоника Спирмена (несколько бесконечностей более общий случай, но для некоторого компромисса власти).

Yзнак равно1Икс+0


источник
35

Это часто случается в статистике: существует множество методов, которые могут применяться в вашей ситуации, и вы не знаете, какой из них выбрать. Вы должны основывать свое решение на плюсах и минусах рассматриваемых методов и специфике вашей проблемы, но даже тогда решение обычно субъективно без согласованного «правильного» ответа. Обычно хорошей идеей является попробовать как можно больше методов, которые позволят вам проявить терпение, и посмотреть, какие из них дадут вам наилучшие результаты.

Разница между корреляцией Пирсона и корреляцией Спирмена состоит в том, что Пирсон наиболее подходит для измерений, взятых из интервальной шкалы, тогда как Спирман больше подходит для измерений, взятых из порядковых шкал. Примеры интервальных шкал включают «температуру по Фаренгейту» и «длину в дюймах», в которых отдельные единицы (1 градус F, 1 дюйм) имеют смысл. Такие вещи, как «баллы удовлетворенности», имеют тенденцию к порядковому типу, поскольку, хотя ясно, что «5 счастья» является более счастливым, чем «3 счастья», неясно, можете ли вы дать осмысленную интерпретацию «1 единицы счастья». Но когда вы сложите во многих измерениях типа ординала, который у вас есть в вашем случае, вы получите измерение, которое на самом деле не является ни порядковым, ни интервальным, и которое трудно интерпретировать.

Я бы порекомендовал вам конвертировать ваши оценки удовлетворенности в квантильные оценки, а затем работать с их суммами, поскольку это даст вам данные, которые немного более поддаются интерпретации. Но даже в этом случае не ясно, будут ли Пирсон или Спирман более подходящими.

charles.y.zheng
источник
2
Как насчет, например, ... опасения общения? Высокое восприятие не имеет определенной разницы с очень высоким восприятием, верно? Но я видел, что переменная была коррелирована с другими переменными, используя r Пирсона. Это совершенно нормально? Спасибо!
28

Я столкнулся с интересным угловым случаем сегодня.

Если мы посмотрим на очень небольшое количество образцов, разница между Спирменом и Пирсоном может быть существенной.

В случае ниже, эти два метода сообщают точно противоположную корреляцию.

введите описание изображения здесь

Несколько быстрых правил, чтобы выбрать Спирмена против Пирсона:

  • Допущения Пирсона - это постоянная дисперсия и линейность (или что-то достаточно близкое к этому), и если они не выполняются, возможно, стоит попробовать Спирманс.
  • Приведенный выше пример является угловым случаем, который появляется только при наличии нескольких (<5) точек данных. Если существует> 100 точек данных, и данные являются линейными или близкими к ним, то Пирсон будет очень похож на Спирмена.
  • Если вы считаете, что линейная регрессия является подходящим методом для анализа ваших данных, то выходные данные Pearsons будут соответствовать знаку и величине наклона линейной регрессии (если переменные стандартизированы).
  • Если в ваших данных есть некоторые нелинейные компоненты, которые линейная регрессия не уловит, то сначала попытайтесь выровнять данные в линейную форму, применив преобразование (возможно, log e). Если это не сработает, то Спирман может подойти.
  • Я всегда сначала пробую Пирсона, и если это не сработает, то я попробую Спирмена.
  • Можете ли вы добавить еще какие-то эмпирические правила или исправить те, которые я только что вывел? Я сделал этот вопрос сообществом Wiki, чтобы вы могли это сделать.

ps Вот код R для воспроизведения приведенного выше графика:

# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3,   -2.5,+0.6)

plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")

spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
    c("Red line: regression.",
    sprintf("Spearman: %.5f",spearman),
    sprintf("Pearson:   +%.5f",pearson)
))
Contango
источник
7

Соглашаясь с ответом Чарльза, я бы предложил (на строго практическом уровне) вычислить оба коэффициента и посмотреть на различия. Во многих случаях они будут точно такими же, поэтому вам не о чем беспокоиться.

Однако, если они отличаются, вам нужно посмотреть, соответствовали ли вы предположениям Пирсона (постоянная дисперсия и линейность), и если они не соблюдены, вам, вероятно, лучше использовать Spearmans.

richiemorrisroe
источник
3
как машинный ученик я определенно не святой в отношении статистической правильности, но проверка предположений ПОСЛЕ выполнения теста кажется мне ересью.
Штеффен
7
@ Штеффен Я думаю, что все в порядке. Одно из предположений о регрессии состоит в том, что остатки обычно распределяются. Как бы вы проверили это до запуска регрессии?
Глен
1
@Glen: в этом случае я не могу. Но когда я сравниваю качество различных моделей, я обычно предпочитаю проверять допущения (например, приблизительно нормально распределенные) перед выполнением теста, чтобы уменьшить тенденцию ослаблять допущения в пользу определенных результатов теста. Назовите это предотвращением уловки ума. Я думаю, это только я;).
Штеффен
1
@ steffen: вы правы в отношении ереси, но если две процедуры дают одинаковые результаты, то это вопрос вкуса, который следует использовать, но если они не проверяют предположения и их неудачу, часто можно получить полезную информацию о данных. Лично я использую Spearman везде, где это возможно, но это не распространенная практика в моей области.
richiemorrisroe