Если две переменные имеют нулевую корреляцию, почему они не обязательно независимы? Являются ли переменные с нулевой корреляцией независимыми при особых обстоятельствах? Если возможно, я ищу интуитивное объяснение, а не сугубо техническое.
correlation
independence
Виктор
источник
источник
Ответы:
Корреляция измеряет линейную связь между двумя данными переменными, и она не обязана обнаруживать какую-либо другую форму ассоциации.
Таким образом, эти две переменные могут быть связаны несколькими другими нелинейными способами, и корреляцию нельзя отличить от независимого случая.
источник
Существует повсеместное отсутствие строгости в использовании слова «корреляция» по той простой причине, что оно может иметь различные предположения и значения. Простейшее, наиболее распространенное и распространенное использование состоит в том, что между статической парой случайных переменных существует некоторая неопределенная связь, взаимосвязь или отсутствие независимости.
Здесь упоминаемой метрикой по умолчанию обычно является корреляция Пирсона , которая является стандартизированной мерой попарной линейной ассоциации между двумя непрерывно распределенными переменными. Одно из самых распространенных злоупотреблений Пирсона - указывать его в процентах. Это определенно не процент. Пирсона корреляции, г , находится в диапазоне между -1,0 и +1,0 где 0 означает отсутствие линейной ассоциации. Другие не столь широко признанные проблемы с использованием корреляции Пирсона в качестве значения по умолчанию заключаются в том, что она на самом деле является довольно жесткой, ненадежной мерой линейности, требующей в качестве входных данных масштабированных по интервалу вариаций (см. Превосходную статью Пола Эмбрехта оСоотношение и зависимость в управлении рисками: свойства и недостатки здесь: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).
Эмбрехтс отмечает, что существует много ошибочных предположений о зависимости, которые начинаются с предположений об основной структуре и геометрической форме этих отношений:
Embrechts указывает на связки как гораздо более широкий класс метрик зависимости, используемых в финансах и управлении рисками, из которых корреляция Пирсона является лишь одним из типов.
Статистический отдел Колумбии провел 2013-2014 учебный год, сосредоточившись на более глубоком понимании структур зависимости: например, линейных, нелинейных, монотонных, ранговых, параметрических, непараметрических, потенциально очень сложных и обладающих широкими различиями в масштабировании. Год завершился трехдневным семинаром и конференцией, в которых приняли участие большинство ведущих специалистов в этой области ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2 )
Этими участниками были братья Решеф, ныне известные научным докладом 2011 года « Обнаружение новых ассоциаций в больших наборах данных» http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf, который была широко раскритикована (см. AndrewGelman.com за хороший обзор, опубликованный одновременно с событием в Колумбии: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Решефы рассмотрели все эти критические замечания в своей презентации (доступной на веб-сайте конференции в Колумбии), а также значительно более эффективный алгоритм MIC.
Многие другие ведущие статистики представили на этом мероприятии, в том числе Габор Секели, в настоящее время в NSF в Вашингтоне. Секели разработал свои корреляции расстояния и частичного расстояния . Deep Mukhopadhay, Temple U, представляет свой унифицированный статистический алгоритм - основу для унифицированных алгоритмов науки о данных - основанную на работе, проделанной с Юджином Франценом http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . И многие другие. Для меня одной из наиболее интересных тем было широкое использование и использование Воспроизводящего ядра Гильберта (RKHS) и хи-квадрат. Если на этой конференции был модальный подход к структурам зависимости, то это был RKHS.
Типичные учебники по вводной статистике носят поверхностный характер при рассмотрении зависимости, обычно полагаясь на представления того же набора визуализаций круговых или параболических отношений. Более сложные тексты будут вникать в «квартет» Анскомба - визуализацию четырех разных наборов данных, обладающих похожими, простыми статистическими свойствами, но сильно отличающимися отношениями: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
Одной из замечательных особенностей этого семинара было множество структур и отношений зависимости, визуализированных и представленных, выходящих далеко за рамки стандартного формального лечения. Например, у Reshefs были десятки миниатюрных графических изображений, которые представляли собой лишь выборку возможных нелинейностей. Глубокий Мухопадхай имел потрясающие визуальные эффекты очень сложных отношений, которые больше походили на спутниковый вид Гималаев. Авторы статистических данных и учебников по данным должны принять к сведению.
Выйдя из конференции в Колумбии с разработкой и визуализацией этих очень сложных, попарно зависимых структур, я остался под вопросом о способности многомерных статистических моделей улавливать эти нелинейности и сложности.
источник
Это зависит от вашего точного определения «корреляции», но не так уж сложно построить вырожденные случаи. «Независимый» может означать что-то вроде «вообще никакой предсказательной силы», равно как и «линейная корреляция».
источник
В основном, зависимость Y от X означает, что распределение значений Y зависит от некоторого способа значения X. Эта зависимость может быть от среднего значения Y (обычный случай, представленный в большинстве ответов) или любой другой характеристики Y.
Например, пусть X будет 0 или 1. Если X = 0, тогда пусть Y будет 0, если X = 1, пусть Y будет -1, 0 или 1 (та же вероятность). X и Y некоррелированы. В общем, Y не зависит от X, потому что независимо от значения X, среднее значение Y равно 0. Но ясно, что распределение значений Y зависит от значения X. В этом случае, например, дисперсия Y равна 0, когда X = 0, и> 0, когда X = 1, таким образом, существует, по меньшей мере, зависимость от дисперсии, т.е. есть зависимость.
Таким образом, линейная корреляция показывает только тип зависимости от среднего (линейная зависимость), что, в свою очередь, является лишь частным случаем зависимости.
источник