Почему коэффициент корреляции между случайными величинами X и XY имеет тенденцию быть 0,7

49

Взято из Практической статистики для медицинских исследований, где Дуглас Альтман пишет на странице 285:

... для любых двух величин X и Y X будет коррелировать с XY. Действительно, даже если X и Y являются выборками случайных чисел, мы ожидаем, что корреляция X и XY будет 0,7

Я попробовал это в R, и, похоже, это так:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Почему это? Какая теория стоит за этим?

nostock
источник
Какую часть вы хотите объяснить? Вы просто хотите получить упрощенное уравнение для корреляции, которая получается из-за известной корреляции между x и y и ковариации между x и xy? Или вы просто хотите узнать, почему здесь вообще есть ковариация?
Джон
Это правда для любых и ? Предположим, что и некоррелированы, и пусть . Тогда я подозреваю, что не будет коррелировать с . XYXZY=XZXXY
Генри

Ответы:

69

Если и являются некоррелированными случайными величинами с одинаковой дисперсией , то имеем Следовательно,XYσ2

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
Итак, когда вы найдете примерное соотношение и для большого набора данных взятый из совокупности с этими свойствами, которая включает в себя "случайные числа" в качестве особого случая, результат имеет тенденцию быть близким к значению корреляции совокупности
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy{(xi,yi):1in}120.7071
Дилип Сарватэ
источник
Не могли бы вы объяснить немного больше, какcov(X,X)-cov(X,Y)=s^2
nostock
5
cov (X, X) - другое название для var (X). cov (X, Y) = 0, поскольку предполагается, что X и Y некоррелированы (следовательно, ковариация = 0).
Дилип Сарвате
58

Геометрическо-статистическое объяснение.

Представьте, что вы создаете диаграмму рассеяния «наизнанку», где объектов - это оси, а переменные и - это точки . Это называется сюжетным пространственным сюжетом (в отличие от обычного переменного пространственного сюжета). Поскольку на графике есть только 2 точки, все измерения в таком пространстве, кроме двух произвольных измерений, которые могут поддерживать 2 точки плюс начало координат, являются избыточными и могут быть безопасно отброшены. И вот мы остались с самолета. Мы рисуем векторные стрелки от начала координат до точек: это наши переменные и как векторы в предметном пространстве данных.n 2 XYXY

Теперь, если переменные были отцентрированы, то в предметном пространстве косинус угла между их векторами является их коэффициентом корреляции . На рисунке ниже векторы и ортогональны: их . Некоррелированность была предпосылкой, изложенной @Dilip в их ответе.XYr=0

Также для переменных по центру их векторные длины в предметном пространстве являются их стандартными отклонениями . На рис. и имеют одинаковую длину, равные отклонения также были обязательным условием @Dilip.XY

Чтобы нарисовать переменную или переменную мы просто используем сложение или вычитание вектора, которые мы забыли со времен школы (переместите вектор Y в конец вектора X и направление инвертирования в случае вычитания, - это показано серыми стрелками на рис., - затем нарисуйте вектор, на который указывает серая стрелка).XYX+Y

Становится совершенно ясно, что длина векторов или (стандартное отклонение этих переменных) по теореме Пифагора равна , а угол между и или равен 45 градусов, который косинус - корреляция -XYX+Y2σ2XXYX+Y0.707...

введите описание изображения здесь

ttnphns
источник
4
Большой +1 за то, что поделился этим подходом.
whuber
(+1) Это очень аккуратный способ представить это!
Мэтт Краузе
Ааа ... картинка! (+1) Молодец. :-)
кардинал
11

Я считаю, что здесь есть простая интуиция, основанная на симметрии. Поскольку X и Y имеют одинаковые распределения и имеют ковариацию 0, связь X ± Y с X должна «объяснить» половину изменения X ± Y; другая половина должна быть объяснена Y. Таким образом, R 2 должен быть 1/2, что означает, что R равно 1 / √2 ≈ 0,707.

denn333
источник
Это кажется хорошей интуицией, но учтите, что если , стандартным способом записи будет , а не что может сбить с толку некоторых людей, даже если они алгебраически эквивалентны. рr2=12r 1/1/21/2
gung - Восстановить Монику
Нет, это на самом деле не более стандартно. (Если вам нужны доказательства, посмотрите на верхний ответ. 38 человек, которые уже проголосовали за него, не сговорились с той же нотацией.)
denn333
Я один из тех 38 ;-). Вопрос в том, за кем легче будет следовать кому-то, чья алгебра довольно слаба? Если , то легче увидеть, что . г = r2=1/2r=1/2
gung - Восстановить Монику
3

Вот простой способ подумать о том, почему здесь вообще есть корреляция.

Представьте себе, что происходит, когда вы вычитаете два распределения. Если значение x низкое, то в среднем x - yбудет меньшее значение, чем если значение x высокое. Когда x увеличивается, то x - yв среднем увеличивается, и, таким образом, наблюдается положительная корреляция.

Джон
источник
4
Я не думаю, что ваше утверждение всегда верно: «Всегда существует корреляция между двумя случайными распределениями, когда есть математическое соотношение». например, x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat
4
@curious_cat: Или, возможно, чтобы быть еще более запоминающимся, отбросьте все y. :-)
кардинал