Почему коэффициент корреляции между случайными величинами X и XY имеет тенденцию быть 0,7

49

Взято из Практической статистики для медицинских исследований, где Дуглас Альтман пишет на странице 285:

... для любых двух величин X и Y X будет коррелировать с XY. Действительно, даже если X и Y являются выборками случайных чисел, мы ожидаем, что корреляция X и XY будет 0,7

Я попробовал это в R, и, похоже, это так:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Почему это? Какая теория стоит за этим?

correlation random-variable intuition nostock
источник

Какую часть вы хотите объяснить? Вы просто хотите получить упрощенное уравнение для корреляции, которая получается из-за известной корреляции между x и y и ковариации между x и xy? Или вы просто хотите узнать, почему здесь вообще есть ковариация?

Джон

Это правда для любых и ? Предположим, что и некоррелированы, и пусть . Тогда я подозреваю, что не будет коррелировать с .

X

$X$

Y

$Y$

X

$X$

Z

$Z$

Y = X - Z

$Y=X-Z$

X

$X$

X - Y

$X-Y$

Генри

69

Если и являются некоррелированными случайными величинами с одинаковой дисперсией , то имеем Следовательно, $X$ $Y$ $\sigma^2$

\begin{aligned} var (X - Y) & = var (X) + var (- Y) \\ = var (X) + var (Y) \\ = 2 σ^{2}, \\ cov (X, X - Y) & = cov (X, X) - cov (X, Y) & bilinearity of covariance operator \\ = var (X) - 0 & 0 because X and Y are uncorrelated \\ = σ^{2} . \end{aligned}

$\begin{align} \operatorname{var}(X-Y) &= \operatorname{var}(X) + \operatorname{var}(-Y)\\ &= \operatorname{var}(X) + \operatorname{var}(Y)\\ &=2\sigma^2,\\ \operatorname{cov}(X, X-Y) &= \operatorname{cov}(X,X) - \operatorname{cov}(X,Y) & \text{bilinearity of covariance operator}\\ &= \operatorname{var}(X) - 0 & 0 ~\text{because}~X ~\text{and}~ Y ~\text{are uncorrelated}\\ &= \sigma^2. \end{align}$

ρ_{X, X - Y} = \frac{cov (X, X - Y)}{\sqrt{var (X) var (X - Y)}} = \frac{σ^{2}}{\sqrt{σ^{2} \cdot 2 σ^{2}}} = \frac{1}{\sqrt{2}} .

$\rho_{X,X-Y} = \frac{\operatorname{cov}(X, X-Y)}{\sqrt{\operatorname{var}(X)\operatorname{var}(X-Y)}}= \frac{\sigma^2}{\sqrt{\sigma^2\cdot2\sigma^2}} = \frac{1}{\sqrt{2}}.$ Итак, когда вы найдете примерное соотношение и для большого набора данных взятый из совокупности с этими свойствами, которая включает в себя "случайные числа" в качестве особого случая, результат имеет тенденцию быть близким к значению корреляции совокупности

\frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) ((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}{\sqrt{\sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2} \sum_{i = 1}^{n} {((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}^{2}}}

$\frac{\sum_{i=1}^n\left(x_i - \bar{x}\right) \left((x_i-y_i) - (\bar{x}-\bar{y})\right)}{ \sqrt{\sum_{i=1}^n\left(x_i - \bar{x}\right)^2 \sum_{i=1}^n\left((x_i-y_i) - (\bar{x}-\bar{y})\right)^2}}$

x

$x$

x - y

$x-y$

{(x_{i}, y_{i}) : 1 \leq i \leq n}

$\{(x_i,y_i)\colon 1 \leq i \leq n\}$

\frac{1}{\sqrt{2}} \approx 0.7071 \dots

$\frac{1}{\sqrt{2}} \approx 0.7071\ldots$

Дилип Сарватэ
источник

Не могли бы вы объяснить немного больше, какcov(X,X)-cov(X,Y)=s^2

nostock

5

cov (X, X) - другое название для var (X). cov (X, Y) = 0, поскольку предполагается, что X и Y некоррелированы (следовательно, ковариация = 0).

Дилип Сарвате

58

Геометрическо-статистическое объяснение.

Представьте, что вы создаете диаграмму рассеяния «наизнанку», где объектов - это оси, а переменные и - это точки . Это называется сюжетным пространственным сюжетом (в отличие от обычного переменного пространственного сюжета). Поскольку на графике есть только 2 точки, все измерения в таком пространстве, кроме двух произвольных измерений, которые могут поддерживать 2 точки плюс начало координат, являются избыточными и могут быть безопасно отброшены. И вот мы остались с самолета. Мы рисуем векторные стрелки от начала координат до точек: это наши переменные и как векторы в предметном пространстве данных. $n$ $2$ $X$ $Y$ $X$ $Y$

Теперь, если переменные были отцентрированы, то в предметном пространстве косинус угла между их векторами является их коэффициентом корреляции . На рисунке ниже векторы и ортогональны: их . Некоррелированность была предпосылкой, изложенной @Dilip в их ответе. $X$ $Y$ $r=0$

Также для переменных по центру их векторные длины в предметном пространстве являются их стандартными отклонениями . На рис. и имеют одинаковую длину, равные отклонения также были обязательным условием @Dilip. $X$ $Y$

Чтобы нарисовать переменную или переменную мы просто используем сложение или вычитание вектора, которые мы забыли со времен школы (переместите вектор Y в конец вектора X и направление инвертирования в случае вычитания, - это показано серыми стрелками на рис., - затем нарисуйте вектор, на который указывает серая стрелка). $X-Y$ $X+Y$

Становится совершенно ясно, что длина векторов или (стандартное отклонение этих переменных) по теореме Пифагора равна , а угол между и или равен 45 градусов, который косинус - корреляция - $X-Y$ $X+Y$ $\sqrt{2\sigma^2}$ $X$ $X-Y$ $X+Y$ $0.707...$

введите описание изображения здесь

ttnphns
источник

4

Большой +1 за то, что поделился этим подходом.

whuber

(+1) Это очень аккуратный способ представить это!

Мэтт Краузе

Ааа ... картинка! (+1) Молодец. :-)

кардинал

11

Я считаю, что здесь есть простая интуиция, основанная на симметрии. Поскольку X и Y имеют одинаковые распределения и имеют ковариацию 0, связь X ± Y с X должна «объяснить» половину изменения X ± Y; другая половина должна быть объяснена Y. Таким образом, R ² должен быть 1/2, что означает, что R равно 1 / √2 ≈ 0,707.

denn333
источник

Это кажется хорошей интуицией, но учтите, что если , стандартным способом записи будет , а не что может сбить с толку некоторых людей, даже если они алгебраически эквивалентны.

r^{2} = \frac{1}{2}

$r^2=\frac 1 2$

r

$r$

\sqrt{1 / 2}

$\sqrt{1/2}$

1 / \sqrt{2}

$1/\sqrt 2$

gung - Восстановить Монику

Нет, это на самом деле не более стандартно. (Если вам нужны доказательства, посмотрите на верхний ответ. 38 человек, которые уже проголосовали за него, не сговорились с той же нотацией.)

denn333

Я один из тех 38 ;-). Вопрос в том, за кем легче будет следовать кому-то, чья алгебра довольно слаба? Если , то легче увидеть, что .

r^{2} = 1 / 2

$r^2=1/2$

r = \sqrt{1 / 2}

$r=\sqrt{1/2}$

gung - Восстановить Монику

3

Вот простой способ подумать о том, почему здесь вообще есть корреляция.

Представьте себе, что происходит, когда вы вычитаете два распределения. Если значение x низкое, то в среднем x - yбудет меньшее значение, чем если значение x высокое. Когда x увеличивается, то x - yв среднем увеличивается, и, таким образом, наблюдается положительная корреляция.

Джон
источник

4

Я не думаю, что ваше утверждение всегда верно: «Всегда существует корреляция между двумя случайными распределениями, когда есть математическое соотношение». например, x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$

curious_cat

4

@curious_cat: Или, возможно, чтобы быть еще более запоминающимся, отбросьте все y. :-)

кардинал

Почему коэффициент корреляции между случайными величинами X и XY имеет тенденцию быть 0,7

Ответы: