Как определить, существенно ли отличаются две корреляции?

9

Я хочу определить, какой из двух наборов данных (B1, B2) лучше соотносит (Pearsons r) с другим набором (A). Во всех наборах данных отсутствуют данные. Как я могу определить, существенно ли отличается результирующая корреляция или нет?

Например, значения 8426 присутствуют как в A, так и в B1, r = 0,74. 8798 присутствуют как в А, так и в В2, r = 0,72.

Я думал, что этот вопрос может помочь, но он остается без ответа: Как узнать, что одна система значительно лучше, чем другая?

hypothesis-testing correlation statistical-significance missing-data Грингласс
источник

Можем ли мы принять большое ?

n

$n$

Firebug

1

@Firebug n обычно будет между 7000 и 8760.

greenglass

6

Иногда один может быть в состоянии сделать это в множественной регрессии, где А DV, B является оценкой людей по шкале, и C является фиктивным кодом , который говорит , что это либо B1 или B2: lm(A~B+C+B*C). Термин взаимодействия, B*Cскажет вам, если корреляции различны, в то время как простые наклоны между A и B на обоих уровнях C скажут вам корреляции.

Тем не менее, невозможно сопоставить все типы сравнений между условиями в этой структуре. Пакет cocorR очень полезен и имеет очень простой интерфейс «укажи и щелкни» в Интернете. Обратите внимание, что с другими отсутствующими данными у вас нет ни независимых, ни зависимых выборок. Я бы использовал удаление по списку, чтобы сделать его простым (и власть не является проблемой для вас).

Марк Уайт
источник

2

Хотя это самый короткий ответ, ссылка на cocor - это то, что направило меня к нужной мне информации. Большое спасибо.

greenglass

15

О, сила бутстрапа. Для иллюстрации рассмотрим три вектора: $A$ , $B_1$ и $B_2$ где:

С о р (A, В_{1}) знак равно 0,92

$Cor(A, B_1) = 0.92$

С о р (A, В_{2}) знак равно 0,86

$Cor(A, B_2) = 0.86$

Цель состоит в том, чтобы определить, значительно ли коррелируют эти два набора данных. Взяв образцы начальной загрузки примерно так:

 B <- 10000
 cor1 <- cor2 <- rep(0, B)
 for(i in 1:B){
   samp <- sample(n, n, TRUE)  
   cor1[i] <- cor(A[samp], B1[samp])
   cor2[i] <- cor(A[samp], B2[samp])
 }

Мы можем построить начальные распределения двух корреляций:

Мы также можем получить 95% доверительные интервалы для $Cor(A, B_i)$ .

95% ДИ для $Corr(A, B_1)$ :

(0.897, 0.947)

$(0.897, 0.947)$

95% ДИ для $Corr(A, B_2)$ :

(0,810, 0,892)

$(0.810, 0.892)$

Тот факт, что интервалы не перекрываются (едва), дает нам некоторое свидетельство того, что разница в выборочных корреляциях, которые мы наблюдали, действительно статистически значима.

Как указывает амеба в комментариях, более «мощный» результат получается из разницы для каждого из примеров начальной загрузки.

95% -й доверительный интервал для разницы между ними составляет:

(0,019, 0,108)

$(0.019, 0.108)$

Отмечая, что интервал (едва) исключает 0, у нас есть аналогичные доказательства, как и раньше.

Чтобы решить проблему с отсутствующими данными, просто выберите образцы начальной загрузки из пар, которые содержатся в обоих наборах данных.

knrumsey
источник

7

Вы можете улучшить эту процедуру, вычислив 95% -й CI cor1-cor2 и проверив, содержит ли он ноль или нет.

амеба

1

Неплохо подмечено. Я включу это в ближайшее время.

knrumsey

Круто, +1.

$\:\:$

амеба

1

Спасибо за этот ответ. Это было очень интересно и информативно написано, хотя это был не тот, который я в конечном итоге использовал.

Грингласс

7

$r_1'=\tanh^{-1}(r_1)$ $r_2'=\tanh^{-1} \left(r_2\right)$ $r_1'={1\over2}\ln\left({1+r_1\over1-r_1}\right)$ $r_2'={1\over2}\ln\left({1+r_2\over1-r_2}\right)$

Затем следует, что из-за того факта, что преобразованные по Фишеру переменные теперь нормально распределены, а сумма нормально распределенных случайных величин по-прежнему нормально распределена:

z = \frac{r_{1}^{'} - r_{2}^{'}}{S} \sim N (0, 1)

$z={r_1'-r_2'\over S}\sim N(0,1)$

S = \sqrt{S_{1}^{2} + S_{2}^{2}} = \sqrt{\frac{1}{n_{1} - 3} + \frac{1}{n_{2} - 3}}

$S=\sqrt{S_1^2+S_2^2}=\sqrt{{1\over n_1-3}+{1\over n_2-3}}$

$H_0:z=0$ $P(z\neq0)=2\cdot P(Z>|z|)$

$t$ $t$ $n$ $t$

-

После комментария @Josh , мы можем несколько включить возможность взаимозависимости между выборками (помните, что обе корреляции зависят от распределения A). Не принимая независимых выборок и не используя неравенство Коши-Шварца, мы можем получить следующую верхнюю границу (см. Как найти стандартное отклонение разности между двумя средними? ):

S \leq S_{1} + S_{2}

$S\leq S_1+S_2$

S \leq \sqrt{\frac{1}{N_{1} - 3}} + \sqrt{\frac{1}{N_{2} - 3}}

$S\leq {\sqrt{1\over n_1-3}+\sqrt{1\over n_2-3}}$

поджигатель
источник

2

Это было бы моей рекомендацией, но альтернативная формула для преобразования Фишера z - это z = .5 * ln ((1 + r) / (1-r)). Сделайте это для каждого r и действуйте, как указано выше.

dbwilson

@dbwilson О да (+1), они эквивалентны, я буду использовать, чтобы добавить ваше предложение, чтобы оно было понятнее для широкой аудитории.

Firebug

r_{1}

$r_1$

r_{2}

$r_2$

6

Отредактировано после полезного отзыва от Mark White (спасибо!)

Одним из вариантов является вычисление обоих отношений (B1 с A и B2 с A) в одной модели, которая также оценивает разницу между ними. Это легко сделать с помощью множественной регрессии . Вы должны запустить модель с A в качестве зависимой переменной, а затем одну непрерывную переменную со всеми оценками для B1 и B2, категориальной переменной, указывающей, какая это переменная (B1 или B2), и взаимодействием между ними. В р:

> set.seed(24601)
> 
> library(tidyverse)
> library(mvtnorm)
> cov <- matrix(c(1, .4, .16,.4, 1, .4, .16, .4, 1), ncol=3, byrow=TRUE)
> mydata <- rmvnorm(n=100, sigma = cov)
> colnames(mydata) = c("A", "B1", "B2")
> head(mydata)
              A         B1         B2
[1,] -0.1046382  0.6031253  0.5641158
[2,] -1.9303293 -0.7663828 -0.7921836
[3,]  0.1244192 -0.4413581 -1.2376256
[4,] -3.2822601 -1.2512055 -0.5586773
[5,] -0.9543368 -0.1743740  1.1884185
[6,] -0.4843183 -0.2612668 -0.7161938

Вот корреляции из данных, которые я сгенерировал:

> cor(mydata)
           A        B1        B2
A  1.0000000 0.4726093 0.3043496
B1 0.4726093 1.0000000 0.3779376
B2 0.3043496 0.3779376 1.0000000
>

Изменение формата данных в соответствии с потребностями модели (переформатирование на «длинный»):

> mydata <- as.data.frame(mydata) %>% 
+   gather("var", "value", B1, B2)
>

Вот модель:

сводка (лм (A ~ значение * переменная, данные = mydata))

Call:
lm(formula = A ~ value * var, data = mydata)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.89310 -0.52638  0.02998  0.64424  2.85747 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.09699    0.09014  -1.076    0.283    
value        0.47445    0.09305   5.099 8.03e-07 ***
varB2       -0.10117    0.12711  -0.796    0.427    
value:varB2 -0.13256    0.13965  -0.949    0.344    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.891 on 196 degrees of freedom
Multiple R-squared:  0.158, Adjusted R-squared:  0.1451 
F-statistic: 12.26 on 3 and 196 DF,  p-value: 2.194e-07

Приведенные здесь результаты (из моих выдуманных данных) показывают, что существует значительная связь между B1 и A (проверка коэффициента «значение», поскольку B1 является контрольной группой для коэффициента «var»), но разница между отношением B1 с A и отношением B2 с A несущественно (проверка коэффициента «значение: varB2»).

Если вам нравится думать с точки зрения корреляции, а не коэффициентов регрессии, просто стандартизируйте все свои переменные (A, B1 и B2) перед запуском модели, и вы получите стандартизированные коэффициенты регрессии (не совсем то же самое, что и корреляция нулевого порядка, но гораздо ближе с точки зрения интерпретации).

Также обратите внимание , что это будет ограничивать свой анализ, только в тех случаях , которые имеют как В1 и В2 ( listwise удаление ). До тех пор, пока у вас остается достаточно данных, чтобы их не было недостаточно, и если отсутствующие данные отсутствуют случайным образом (или достаточно малая доля общих данных, чтобы они не имели большого значения, даже если они отсутствуют случайно), то это нормально.

Тот факт, что вы ограничиваете свой анализ одним и тем же набором данных для оценки эффектов как для B1, так и для B2 (вместо того, чтобы использовать немного разные наборы данных, основанные на разных типах пропусков), имеет то преимущество, что немного интерпретирует разницу между корреляциями более простой. Если вы рассчитываете корреляции отдельно для каждого из них, а затем проверяете разницу между ними , вы сталкиваетесь с проблемой, заключающейся в том, что базовые данные немного отличаются в каждом случае - любое различие, которое вы видите, может быть связано как с различиями в выборках, так и с различиями. в фактических отношениях между переменными.

Роуз Хартман
источник

2

Разве это не тот случай, lm(A~B1*B2)который проверит, если корреляция между B1и A зависит от B2оценки ? Этот термин взаимодействия не проверяет, отличаются ли корреляции; это проверка, взаимодействуют ли два предиктора друг с другом. Вы можете создать фиктивный код, Cкоторый кодирует ли не масштаб Bявляется B1или B2. Тогда , что бы вам сказать , что корреляция между Bи Aзависит от того, если B1или B2, то есть, если корреляции различны.

Марк Уайт

1

@MarkWhite О боже, ты совершенно прав! Спасибо, что поймали это. Хлоп! Я буду редактировать, чтобы исправить это.

Роза Хартман,

Как определить, существенно ли отличаются две корреляции?

Ответы: