Корреляция значима в каждой группе, но незначительна для всех?

9

Предположим , мы тестируем корреляции Пирсона между переменной и у в группах А и В . Возможно ли, чтобы ( x , y ) корреляция была значимой в каждом из A и B , но незначительной, когда данные из обеих групп объединены? В этом случае, не могли бы вы дать объяснение этому.xyAB(x,y)AB

QED
источник

Ответы:

21

Да, это возможно, и это может произойти всеми способами. Одним очевидным примером является случай, когда членство в A и B выбрано таким образом, который отражает значения x и y. Возможны и другие примеры, например, комментарий @ Macro предлагает альтернативную возможность.

Рассмотрим приведенный ниже пример, написанный на R. x и y - это стандартные нормальные переменные, но если я распределю их по группам на основе относительных значений x и y, я получу название, которое вы назвали. Внутри группы A и группы B существует сильная статистически значимая корреляция между x и y, но если игнорировать структуру группировки, корреляции не будет.

введите описание изображения здесь

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)
Питер Эллис
источник
+1. Это очень умный пример, который мне не приходил в голову.
Макро
13

Одна возможность состоит в том, что эффекты могут идти в разных направлениях в каждой группе и отменяются при их агрегировании . Это также связано с тем, что когда вы пропускаете важный термин взаимодействия в регрессионной модели, основные эффекты могут вводить в заблуждение.

AYяИкся

Е(Yя|Икся,гроUп A)знак равно1+Икся

В

Е(Yя|Икся,гроUп В)знак равно1-Икся

п(гроUп A)знак равно1-п(гроUп В)знак равноп
Е(Yя|Икся)

Е(Yя|Икся)знак равноЕ(Е(Yя|Икся,гроUп))знак равноп(1+Икся)+(1-п)(1-Икся)знак равноп+пИкся+1-Икся-п+пИксязнак равно1-Икся(2п-1)

пзнак равно1/2Е(Yя|Икся)знак равно1ИксяИксяYя

п

Примечание. При обычных ошибках значимость коэффициента линейной регрессии эквивалентна значению корреляции Пирсона, поэтому в этом примере показано одно объяснение того, что вы видите.

макрос
источник