Прежде всего, я не спрашиваю это:
Почему нулевая корреляция не подразумевает независимость?
Это решено (довольно красиво) здесь: /math/444408/why-does-zero-correlation-not-imply-independence
Я спрашиваю об обратном ... скажем, две переменные полностью независимы друг от друга.
Разве они не могли случайно обнаружить корреляцию?
Не должно ли это быть ... независимость подразумевает ОЧЕНЬ МАЛЕНЬКУЮ корреляцию?
correlation
mathematical-statistics
covariance
independence
Джошуа Ронис
источник
источник
Ответы:
По определению коэффициента корреляции, если две переменные независимы, их корреляция равна нулю. Так что не могло быть никакой корреляции случайно!
Если и независимы, означает . Следовательно, числитель равен нулю в этом случае.X Y E[XY]=E[X]E[Y] ρX,Y
Так что, если вы не измените значение корреляции, как упомянуто здесь, это невозможно. Если только не уточнить ваше определение, что такое корреляция.
источник
Комментарий на образце корреляции. При сравнении двух небольших независимых выборок одинакового размера корреляция выборок часто заметно отличается отr=0. [Здесь ничто не противоречит Ответу OmG (+1) о корреляции населения ρ.]
Рассмотрим корреляции между миллионом пар независимых выборок размеромn=5 из экспоненциального распределения со скоростью 1.
Например, вот график рассеяния первой из миллиона пар образцов размером5, для которых
r=−0.5716.
В этом отношении нет ничего особенного в экспоненциальном распределении. Изменение родительского распределения на стандартное нормальное дало следующие результаты.
источник
Простой ответ: если 2 переменные являются независимыми, то корреляция совокупности равна нулю, тогда как выборочная корреляция обычно будет небольшой, но ненулевой.
Это потому, что выборка не является идеальным представлением населения.
Чем больше выборка, тем лучше она представляет население, тем меньше будет корреляция. Для бесконечной выборки корреляция будет нулевой.
источник
Может быть, это полезно для некоторых людей, разделяющих такое же интуитивное понимание. Мы все видели что-то вроде этого:
Как уже отмечали другие, значения выборки коррелируют, но это не означает, что популяция имеет ненулевую корреляцию.
Конечно, эти два должны быть независимыми - учитывая, что Николас Кейдж появился в рекордных 10 фильмах в этом году, мы не должны закрывать местный бассейн на лето в целях безопасности.
Но когда мы проверяем, сколько людей утонуло в этом году, маловероятно, что в этом году утонут рекордные 1000 человек.
Получение такой корреляции маловероятно. Может быть, один из тысячи. Но это возможно, хотя оба они независимы. Но это только один случай. Учтите, что существуют миллионы возможных событий, которые вы можете измерить, и вы можете увидеть вероятность того, что шансы некоторых двух, дающих высокую корреляцию, достаточно высоки (отсюда и существование графиков, подобных приведенному выше).
Другой способ взглянуть на это состоит в том, что гарантия того, что два независимых события всегда будут давать некоррелированные значения, сама по себе ограничительна. Учитывая два независимых кубика и результаты первого, существует определенный (значительный) набор результатов для второго кубика, который даст некоторую ненулевую корреляцию. Ограничение результатов второй кости, чтобы дать нулевую корреляцию с первой, является явным нарушением независимости, так как броски первой кости теперь влияют на распределение результатов.
источник