Почему нулевая корреляция не обязательно означает независимость

41

Если две переменные имеют нулевую корреляцию, почему они не обязательно независимы? Являются ли переменные с нулевой корреляцией независимыми при особых обстоятельствах? Если возможно, я ищу интуитивное объяснение, а не сугубо техническое.

Виктор
источник
10
Корреляция - это мера линейной зависимости (ассоциации). две случайные величины могут быть некоррелированными, но нелинейно зависимыми.
Марк Л. Стоун
Интуитивное объяснение -> math.stackexchange.com/questions/444408/...
Siddhesh
6
Нулевая корреляция подразумевает независимость, если переменные являются многомерными нормальными. Это не то же самое, что каждая переменная является нормальной - см. Здесь некоторые диаграммы рассеяния нуль-коррелированных, но зависимых нормальных переменных (каждая переменная индивидуально нормальна)
Glen_b -Reinstate Monica
1
Корреляция (неквалифицированная) может включать ранговую корреляцию и т. Д., Для которых монотонная зависимость является проблемой, и так далее.
Ник Кокс
1
Для перспективы я бы порекомендовал вам видеть в «Википедии» «дистанционную корреляцию» как меру независимости.
ttnphns

Ответы:

41

Корреляция измеряет линейную связь между двумя данными переменными, и она не обязана обнаруживать какую-либо другую форму ассоциации.

Таким образом, эти две переменные могут быть связаны несколькими другими нелинейными способами, и корреляцию нельзя отличить от независимого случая.

XP(X=x)=1/3x=1,0,1Y=X2

Марсело Вентура
источник
1
Я искал доказательства того, что случайные отклонения некоррелированы, но в то же время зависимы, однако ни один из прямых ответов на мой вопрос не выявил интуитивных фактов. Ваш ответ, с другой стороны, дает мне очень хороший взгляд на это, большое спасибо!
штукатурка
1
@stucash мое удовольствие! Это был старый контрпример, который я выучил
Марсело Вентура
23

Существует повсеместное отсутствие строгости в использовании слова «корреляция» по той простой причине, что оно может иметь различные предположения и значения. Простейшее, наиболее распространенное и распространенное использование состоит в том, что между статической парой случайных переменных существует некоторая неопределенная связь, взаимосвязь или отсутствие независимости.

Здесь упоминаемой метрикой по умолчанию обычно является корреляция Пирсона , которая является стандартизированной мерой попарной линейной ассоциации между двумя непрерывно распределенными переменными. Одно из самых распространенных злоупотреблений Пирсона - указывать его в процентах. Это определенно не процент. Пирсона корреляции, г , находится в диапазоне между -1,0 и +1,0 где 0 означает отсутствие линейной ассоциации. Другие не столь широко признанные проблемы с использованием корреляции Пирсона в качестве значения по умолчанию заключаются в том, что она на самом деле является довольно жесткой, ненадежной мерой линейности, требующей в качестве входных данных масштабированных по интервалу вариаций (см. Превосходную статью Пола Эмбрехта оСоотношение и зависимость в управлении рисками: свойства и недостатки здесь: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).

Эмбрехтс отмечает, что существует много ошибочных предположений о зависимости, которые начинаются с предположений об основной структуре и геометрической форме этих отношений:

Эти ошибки возникают из наивного предположения, что свойства зависимости эллиптического мира также сохраняются в неэллиптическом мире

Embrechts указывает на связки как гораздо более широкий класс метрик зависимости, используемых в финансах и управлении рисками, из которых корреляция Пирсона является лишь одним из типов.

Статистический отдел Колумбии провел 2013-2014 учебный год, сосредоточившись на более глубоком понимании структур зависимости: например, линейных, нелинейных, монотонных, ранговых, параметрических, непараметрических, потенциально очень сложных и обладающих широкими различиями в масштабировании. Год завершился трехдневным семинаром и конференцией, в которых приняли участие большинство ведущих специалистов в этой области ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2 )

Этими участниками были братья Решеф, ныне известные научным докладом 2011 года « Обнаружение новых ассоциаций в больших наборах данных» http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf, который была широко раскритикована (см. AndrewGelman.com за хороший обзор, опубликованный одновременно с событием в Колумбии: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Решефы рассмотрели все эти критические замечания в своей презентации (доступной на веб-сайте конференции в Колумбии), а также значительно более эффективный алгоритм MIC.

Многие другие ведущие статистики представили на этом мероприятии, в том числе Габор Секели, в настоящее время в NSF в Вашингтоне. Секели разработал свои корреляции расстояния и частичного расстояния . Deep Mukhopadhay, Temple U, представляет свой унифицированный статистический алгоритм - основу для унифицированных алгоритмов науки о данных - основанную на работе, проделанной с Юджином Франценом http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . И многие другие. Для меня одной из наиболее интересных тем было широкое использование и использование Воспроизводящего ядра Гильберта (RKHS) и хи-квадрат. Если на этой конференции был модальный подход к структурам зависимости, то это был RKHS.

Типичные учебники по вводной статистике носят поверхностный характер при рассмотрении зависимости, обычно полагаясь на представления того же набора визуализаций круговых или параболических отношений. Более сложные тексты будут вникать в «квартет» Анскомба - визуализацию четырех разных наборов данных, обладающих похожими, простыми статистическими свойствами, но сильно отличающимися отношениями: https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Одной из замечательных особенностей этого семинара было множество структур и отношений зависимости, визуализированных и представленных, выходящих далеко за рамки стандартного формального лечения. Например, у Reshefs были десятки миниатюрных графических изображений, которые представляли собой лишь выборку возможных нелинейностей. Глубокий Мухопадхай имел потрясающие визуальные эффекты очень сложных отношений, которые больше походили на спутниковый вид Гималаев. Авторы статистических данных и учебников по данным должны принять к сведению.

Выйдя из конференции в Колумбии с разработкой и визуализацией этих очень сложных, попарно зависимых структур, я остался под вопросом о способности многомерных статистических моделей улавливать эти нелинейности и сложности.

Майк Хантер
источник
2
Я только что натолкнулся на это превосходное и исчерпывающее обсуждение мер ассоциации на Quora: quora.com/…
Майк Хантер
6

Это зависит от вашего точного определения «корреляции», но не так уж сложно построить вырожденные случаи. «Независимый» может означать что-то вроде «вообще никакой предсказательной силы», равно как и «линейная корреляция».

y=sin(2000x)x[0,1)

Андрей Чарнески
источник
3

В основном, зависимость Y от X означает, что распределение значений Y зависит от некоторого способа значения X. Эта зависимость может быть от среднего значения Y (обычный случай, представленный в большинстве ответов) или любой другой характеристики Y.

Например, пусть X будет 0 или 1. Если X = 0, тогда пусть Y будет 0, если X = 1, пусть Y будет -1, 0 или 1 (та же вероятность). X и Y некоррелированы. В общем, Y не зависит от X, потому что независимо от значения X, среднее значение Y равно 0. Но ясно, что распределение значений Y зависит от значения X. В этом случае, например, дисперсия Y равна 0, когда X = 0, и> 0, когда X = 1, таким образом, существует, по меньшей мере, зависимость от дисперсии, т.е. есть зависимость.

Таким образом, линейная корреляция показывает только тип зависимости от среднего (линейная зависимость), что, в свою очередь, является лишь частным случаем зависимости.

Karpablanca
источник