Почему независимость подразумевает нулевую корреляцию?

16

Прежде всего, я не спрашиваю это:

Почему нулевая корреляция не подразумевает независимость?

Это решено (довольно красиво) здесь: /math/444408/why-does-zero-correlation-not-imply-independence

Я спрашиваю об обратном ... скажем, две переменные полностью независимы друг от друга.

Разве они не могли случайно обнаружить корреляцию?

Не должно ли это быть ... независимость подразумевает ОЧЕНЬ МАЛЕНЬКУЮ корреляцию?

Джошуа Ронис
источник
5
Даже независимые переменные почти всегда будут иметь ненулевую корреляцию SAMPLE, хотя она, вероятно, все еще будет близка к нулю.
Jsk
10
Как отметил @jsk, вы можете путать выборочную корреляцию с ожидаемой корреляцией
David
1
@ Дэвид не могли бы вы объяснить? Я все еще очень начинающий в статистике.
Джошуа Ронис
3
@JoshuaRonis Примерная корреляция - это корреляция, которую вы наблюдаете при работе с кучей данных. Вы используете это, чтобы получить представление о том, что такое «истинная» корреляция между двумя переменными. Чем больше выборка, тем лучше оценка, которую вы получите. Например, корреляция между результатами двух игральных костей является независимой, поэтому некоррелированной, даже если вы скрутите их десять раз, вы можете получить корреляцию (из-за случайного шанса). (то есть у вас равные шансы у каждого)
Дэвид
1
Не обман, а смежное обсуждение: подразумевает ли ненулевая корреляция зависимость?
SecretAgentMan

Ответы:

36

По определению коэффициента корреляции, если две переменные независимы, их корреляция равна нулю. Так что не могло быть никакой корреляции случайно!

ρX,Y=E[XY]E[X]E[Y]E[X2][E[X]]2 E[Y2][E[Y]]2

Если и независимы, означает . Следовательно, числитель равен нулю в этом случае.XYE[XY]=E[X]E[Y]ρX,Y

Так что, если вы не измените значение корреляции, как упомянуто здесь, это невозможно. Если только не уточнить ваше определение, что такое корреляция.

О, мой бог
источник
2
И все же, у нас есть диаграммы, четко показывающие (обратную) корреляцию между количеством пиратов и глобальной средней температурой. Как отмечают другие комментарии, нужно быть осторожным с размерами выборки, не говоря уже о «случайных появлениях»
Carl Witthoft
@OmG "если вы не измените значение корреляции, как упомянуто здесь", когда я прочитал вопрос об операциях, я получил совсем другое значение слова "корреляция". Для меня: «Разве они не могут иметь небольшую корреляцию случайно?» очень сильно подразумевает «измерение» корреляции, и когда вы измеряете корреляцию в реальности, вы очень часто найдете «чуть-чуть корреляции случайно».
industry7
1
@ industry7 Понятно. Но это должно быть определено формальным методом. Это качественно, и мы не можем говорить об этом здесь.
OmG
@CarlWitthoft Количество пиратов и средняя глобальная температура не являются независимыми. У них есть общая причина (то есть время, развитие, модернизация и т. Д.), Которая создает зависимость между ними. «Независимость» не означает «не вызывает»; это означает «несвязанный», и ясно, что эти диаграммы демонстрируют связь.
Ной
@ Нет, я боюсь, что это было. venganza.org
Карл Виттофт
19

Комментарий на образце корреляции. При сравнении двух небольших независимых выборок одинакового размера корреляция выборок часто заметно отличается от r=0. [Здесь ничто не противоречит Ответу OmG (+1) о корреляции населения ρ.]

Рассмотрим корреляции между миллионом пар независимых выборок размером n=5 из экспоненциального распределения со скоростью 1.

set.seed(616)
r = replicate( 10^6, cor(rexp(5), rexp(5))  )
mean(abs(r) > .5)
[1] 0.386212
mean(r)
[1] -0.0005904455

hist(r, prob=T, br=40, col="skyblue2")
  abline(v=c(-.5,.5), col="red", lwd=2)

введите описание изображения здесь

Например, вот график рассеяния первой из миллиона пар образцов размером 5, для которых r=0.5716.

введите описание изображения здесь

В этом отношении нет ничего особенного в экспоненциальном распределении. Изменение родительского распределения на стандартное нормальное дало следующие результаты.

set.seed(2019)
...
mean(abs(r) > .5)
[1] 0.391061
mean(r)
[1] 1.43269e-05

введите описание изображения здесь

n=20.

введите описание изображения здесь

р

BruceET
источник
6
Для небольшого размера выборки вы, вероятно, найдете корреляции выборки, которые «заметно» отличаются от нуля, но вы вряд ли найдете корреляции, которые значительно отличаются от нуля. Несмотря на то, что ваша точечная оценка далека от нуля, у вас слишком мало данных, чтобы уверенно утверждать, что вы видите ненулевую корреляцию из-за чего-то, кроме случайности. Только с 5 парами даже коэффициенты корреляции, превышающие 0,8, не могут существенно отличаться от 0.
Nuclear Wang
11

Простой ответ: если 2 переменные являются независимыми, то корреляция совокупности равна нулю, тогда как выборочная корреляция обычно будет небольшой, но ненулевой.

Это потому, что выборка не является идеальным представлением населения.

Чем больше выборка, тем лучше она представляет население, тем меньше будет корреляция. Для бесконечной выборки корреляция будет нулевой.

Дейв
источник
1
пεNNεп
Да, абсолютно правильно! Я старался сделать свой ответ максимально простым и концептуальным.
Дейв
1

Может быть, это полезно для некоторых людей, разделяющих такое же интуитивное понимание. Мы все видели что-то вроде этого:

enter image description here

r=0.66

Как уже отмечали другие, значения выборки коррелируют, но это не означает, что популяция имеет ненулевую корреляцию.

Конечно, эти два должны быть независимыми - учитывая, что Николас Кейдж появился в рекордных 10 фильмах в этом году, мы не должны закрывать местный бассейн на лето в целях безопасности.

Но когда мы проверяем, сколько людей утонуло в этом году, маловероятно, что в этом году утонут рекордные 1000 человек.

Получение такой корреляции маловероятно. Может быть, один из тысячи. Но это возможно, хотя оба они независимы. Но это только один случай. Учтите, что существуют миллионы возможных событий, которые вы можете измерить, и вы можете увидеть вероятность того, что шансы некоторых двух, дающих высокую корреляцию, достаточно высоки (отсюда и существование графиков, подобных приведенному выше).

Другой способ взглянуть на это состоит в том, что гарантия того, что два независимых события всегда будут давать некоррелированные значения, сама по себе ограничительна. Учитывая два независимых кубика и результаты первого, существует определенный (значительный) набор результатов для второго кубика, который даст некоторую ненулевую корреляцию. Ограничение результатов второй кости, чтобы дать нулевую корреляцию с первой, является явным нарушением независимости, так как броски первой кости теперь влияют на распределение результатов.

Саймон Алфорд
источник