Взято из Практической статистики для медицинских исследований, где Дуглас Альтман пишет на странице 285:
... для любых двух величин X и Y X будет коррелировать с XY. Действительно, даже если X и Y являются выборками случайных чисел, мы ожидаем, что корреляция X и XY будет 0,7
Я попробовал это в R, и, похоже, это так:
x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)
xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)
Почему это? Какая теория стоит за этим?
correlation
random-variable
intuition
nostock
источник
источник
Ответы:
Если и являются некоррелированными случайными величинами с одинаковой дисперсией , то имеем Следовательно,X Y σ2
источник
cov(X,X)-cov(X,Y)=s^2
Геометрическо-статистическое объяснение.
Представьте, что вы создаете диаграмму рассеяния «наизнанку», где объектов - это оси, а переменные и - это точки . Это называется сюжетным пространственным сюжетом (в отличие от обычного переменного пространственного сюжета). Поскольку на графике есть только 2 точки, все измерения в таком пространстве, кроме двух произвольных измерений, которые могут поддерживать 2 точки плюс начало координат, являются избыточными и могут быть безопасно отброшены. И вот мы остались с самолета. Мы рисуем векторные стрелки от начала координат до точек: это наши переменные и как векторы в предметном пространстве данных.n 2 X Y X Y
Теперь, если переменные были отцентрированы, то в предметном пространстве косинус угла между их векторами является их коэффициентом корреляции . На рисунке ниже векторы и ортогональны: их . Некоррелированность была предпосылкой, изложенной @Dilip в их ответе.X Y r=0
Также для переменных по центру их векторные длины в предметном пространстве являются их стандартными отклонениями . На рис. и имеют одинаковую длину, равные отклонения также были обязательным условием @Dilip.X Y
Чтобы нарисовать переменную или переменную мы просто используем сложение или вычитание вектора, которые мы забыли со времен школы (переместите вектор Y в конец вектора X и направление инвертирования в случае вычитания, - это показано серыми стрелками на рис., - затем нарисуйте вектор, на который указывает серая стрелка).X−Y X+Y
Становится совершенно ясно, что длина векторов или (стандартное отклонение этих переменных) по теореме Пифагора равна , а угол между и или равен 45 градусов, который косинус - корреляция -X−Y X+Y 2σ2−−−√ X X−Y X+Y 0.707...
источник
Я считаю, что здесь есть простая интуиция, основанная на симметрии. Поскольку X и Y имеют одинаковые распределения и имеют ковариацию 0, связь X ± Y с X должна «объяснить» половину изменения X ± Y; другая половина должна быть объяснена Y. Таким образом, R 2 должен быть 1/2, что означает, что R равно 1 / √2 ≈ 0,707.
источник
Вот простой способ подумать о том, почему здесь вообще есть корреляция.
Представьте себе, что происходит, когда вы вычитаете два распределения. Если значение x низкое, то в среднем
x - y
будет меньшее значение, чем если значение x высокое. Когда x увеличивается, тоx - y
в среднем увеличивается, и, таким образом, наблюдается положительная корреляция.источник
x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)
$y
. :-)