Как бы вы объяснили разницу между корреляцией и ковариацией?

109

В продолжение этого вопроса: Как бы вы объяснили ковариацию тому, кто понимает только среднее? , который касается вопроса об объяснении ковариации для непрофессионала, поднял аналогичный вопрос в моей голове.

Как объяснить статистику-новичку разницу между ковариацией и корреляцией ? Кажется, что оба ссылаются на изменение в одной переменной, связанной с другой переменной.

Подобно упомянутому вопросу, предпочтение отдается отсутствию формул.

correlation covariance pmgjones
источник

109

Проблема с ковариациями заключается в том, что их трудно сравнивать: когда вы вычисляете ковариацию набора высот и весов, выраженную в (соответственно) метрах и килограммах, вы получите другую ковариацию, чем когда вы делаете это в других единицах ( что уже создает проблему для людей, делающих то же самое с метрической системой или без нее!), но также будет трудно сказать, если (например) рост и вес «больше равняются», чем, скажем, длина пальцев рук и ног просто потому, что «масштаб», на котором рассчитана ковариация, отличается.

Решение этой проблемы состоит в том, чтобы «нормализовать» ковариацию: вы делите ковариацию на то, что представляет разнообразие и масштаб в обоих ковариатах, и в итоге получаете значение, которое гарантированно находится в диапазоне от -1 до 1: корреляция. Независимо от того, в какой единице были ваши исходные переменные, вы всегда получите один и тот же результат, и это также гарантирует, что вы можете в определенной степени сравнить, «две» переменные коррелируют с двумя другими, просто сравнив их корреляцию.

Примечание: вышеизложенное предполагает, что читатель уже понимает понятие ковариации.

Ник Сабби
источник

2

+1 Вы хотели написать «корреляция» вместо «ковариация» в последнем предложении?

whuber

Вы уверены, что не можете сравнить ковариации с разными единицами? Единицы проходят через умноженную ковариацию - если ваш X включен cm, а ваш Y - s, то ваш . И тогда вы можете просто умножить на результат коэффициент преобразования единиц. Попробуйте это в R:

c o v (X, Y) = z c m \cdot s

$cov(X,Y)=z\ cm\cdot s$ cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)

naught101

3

@ naught101 Я подозреваю, что дело в том, что, если бы я сказал вам, что и ничего больше, вы бы не поняли, сильно ли предсказывает или нет, тогда как если бы я сказал, что вы вас будет что-то более интерпретируемое.

Cov (X, Y) = 10^{1} 0

$\mbox{Cov}(X, Y) = 10^10$

X

$X$

Y

$Y$

Cor (X, Y) = .9

$\mbox{Cor}(X, Y) = .9$

парень

@guy: Это были бы ковариации без единиц: PI считает, что важно то, что вы не можете легко сравнить ковариации из двух наборов данных, которые имеют разные дисперсии. Например, если у вас есть отношение B = 2 * A и два набора данных, {A1, B1} и {A2, B2}, где A1 имеет дисперсию 0,5, а A2 имеет дисперсию 2, тогда будет намного больше, чем , даже если соотношение точно такое же.

c o v (A 2, B 2)

$cov(A2, B2)$

c o v (A 1, B 1)

$cov(A1, B1)$

naught101

3

Итак, в простых терминах корреляция> ковариация

Карл Моррисон

58

Требования этих типов вопросов кажутся мне немного странными. Вот математическая концепция / формула, но я хочу поговорить об этом в некотором контексте, полностью лишенном математических символов. Я также думаю, что следует заявить, что фактическая алгебра, необходимая для понимания формул, я думаю, должна преподаваться большинству людей до высшего образования (не требуется понимания матричной алгебры, достаточно простой алгебры).

Итак, сначала вместо того, чтобы полностью игнорировать формулу и говорить о ней в некоторых магических и эвристических аналогиях, давайте просто посмотрим на формулу и попытаемся объяснить отдельные компоненты небольшими шагами. Разница в терминах ковариации и корреляции при взгляде на формулы должна стать очевидной. Принимая во внимание, что если говорить с точки зрения аналогий и эвристики, я подозреваю, что эти два относительно простых понятия и их различия во многих ситуациях будут скрыты.

Итак, давайте начнем с формулы для выборочной ковариации (это я только что взял и принял из википедии);

$\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$

Чтобы ускорить процесс, давайте четко определим все элементы и операции в формуле.

$x_i$ и - это измерения двух отдельных атрибутов одного и того же наблюдения $y_i$
$\bar{x}$ и - это среднее (или среднее) каждого атрибута $\bar{y}$
Для , давайте просто скажем, что это означает, что мы делим конечный результат на . $\frac{1}{n-1}$ ${n-1}$
$\sum_{i=1}^{n}$ может быть для некоторых посторонним символом, поэтому, вероятно, было бы полезно объяснить эту операцию. Это просто сумма всех разделите наблюдения и представляет собой общее количество наблюдений. $i$ $n$

На этом этапе я мог бы представить простой пример, чтобы, так сказать, взглянуть на элементы и операции. Так, например, давайте просто составим таблицу, в которой каждая строка соответствует наблюдению (а и помечены соответствующим образом). Вероятно, можно было бы сделать эти примеры более конкретными (например, скажем, представляет возраст, а представляет вес), но для нашего обсуждения здесь это не имеет значения. $x$ $y$ $x$ $y$

На этом этапе, если вы чувствуете, что операция суммирования в формуле, возможно, не была полностью понята, вы можете представить ее снова в гораздо более простом контексте. Скажем просто, представьте, что - то же самое, что сказано в этом примере; $\sum_{i=1}^{n}(x_i)$

Теперь этот беспорядок должен быть устранен, и мы можем ко второй части формулы . Теперь, предполагая, что люди уже знают, что означает среднее, обозначают и , и я бы сказал, лицемерно относясь к моим собственным комментариям ранее в этом посте, можно просто сослаться на среднее в терминах простая эвристика (например, середина распределения). Затем можно просто выполнить этот процесс по одной операции за раз. Утверждение $(x_i-\bar{x})(y_i-\bar{y})$ $\bar{x}$ $\bar{y}$ $(x_i-\bar{x})$ просто исследует отклонения / расстояние между каждым наблюдением и среднее значение всех наблюдений для этого конкретного атрибута. Следовательно, когда наблюдение находится дальше от среднего значения, этой операции будет присвоено более высокое значение. Затем можно вернуться к приведенной таблице примеров и просто продемонстрировать операцию над вектором наблюдений. $x$

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

Операция такая же для вектора , но только для подкрепления вы можете также представить эту операцию. $y$

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

Теперь термины и не должны быть неоднозначными, и мы можем перейти к следующей операции, умножив эти результаты вместе, . Как указывает Ганг в комментариях, это часто называют перекрестным произведением (возможно, полезным примером для подведения итогов, если кто-то вводил базовую матричную алгебру для статистики). $(x_i-\bar{x})$ $(y_i-\bar{y})$ $(x_i-\bar{x})\cdot(y_i-\bar{y})$

Обратите внимание на то, что происходит при умножении, если два наблюдения оба находятся на большом расстоянии выше среднего, результирующее наблюдение будет иметь еще большее положительное значение (то же самое верно, если оба наблюдения находятся на большом расстоянии ниже среднего, так как умножение двух негативов равно положительному). Также обратите внимание, что если одно наблюдение намного выше среднего, а другое значительно ниже среднего, результирующее значение будет большим (в абсолютном выражении) и отрицательным (в положительное время отрицательное равно отрицательному числу). В заключение отметим, что когда значение очень близко к среднему для любого наблюдения, умножение двух значений приведет к небольшому числу. Опять же, мы можем просто представить эту операцию в виде таблицы.

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

Теперь, если в комнате есть какие-то статистики, они должны кипеть в ожидании. Мы можем видеть все отдельные элементы того, что такое ковариация и как она рассчитывается. Теперь все, что нам нужно сделать, это подвести итоги в последнем результате в предыдущей таблице, разделить на и вуаля , ковариация больше не должна быть мистической (все с определением только одного греческого символа). $n-1$

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

В этот момент вы можете уточнить, откуда исходит 5, но это должно быть так же просто, как вернуться к таблице и подсчитать количество наблюдений (давайте снова оставим разницу между выборкой и популяцией в другое время).

Теперь ковариация сама по себе не говорит нам много (она может, но на данном этапе нет необходимости приводить какие-либо интересные примеры, не прибегая к волшебным, неопределенным ссылкам на аудиторию). В хорошем сценарии вам не нужно продавать, почему мы должны заботиться о том, что такое ковариация, в других обстоятельствах вы можете просто надеяться, что ваша аудитория захвачена и примет ваше слово. Но, продолжая развивать разницу между тем, что такое ковариация и какова корреляция, мы можем просто вернуться к формуле корреляции. Чтобы предотвратить греческий символ фобии, просто скажите, что - это общий символ, используемый для представления корреляции. $\rho$

$\rho = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}$

Опять же, повторюсь, числитель в предыдущей формуле - это просто ковариация, как мы только что определили, а знаменатель - это квадратный корень из произведения дисперсии каждой отдельной серии. Если вам нужно определить саму дисперсию, вы можете просто сказать, что дисперсия - это то же самое, что и ковариация ряда с самим собой (т. ). Применимы все те же понятия, которые вы ввели с ковариацией (т. Е. Если ряд имеет много значений далеко от среднего значения, он будет иметь высокую дисперсию). Здесь следует отметить, что ряд не может также иметь отрицательную дисперсию (что должно логически следовать из ранее представленной математики). $Cov(x,x) = Var(x)$

Таким образом, единственные новые компоненты, которые мы ввели, находятся в знаменателе, . Таким образом, мы делим ковариацию, которую мы только что рассчитали, на произведение дисперсий каждой серии. Можно было бы остановиться на том, почему деление на всегда будет приводить к значению от -1 до 1, но я подозреваю, что неравенство Коши-Шварца следует исключить из повестки дня для это обсуждение. Итак, еще раз, я лицемер и прибегаю к некоторым, поверьте мне на слово , но на этом этапе мы можем представить все причины, по которым мы используем коэффициент корреляции. Затем можно связать эти уроки математики с эвристикой, которая была дана в других утверждениях, таких как ответ Питера Флома. $Var(x)Var(y)$ $\sqrt{Var(x)Var(y)}$ на один из других вопросов. Хотя это критиковалось за представление концепции с точки зрения причинно-следственных связей, этот урок также должен быть в повестке дня.

Я понимаю, что в некоторых обстоятельствах такой уровень лечения не подходит. Сенат нуждается в исполнительном резюме . В этом случае, вы можете вернуться к простой эвристике, которую люди использовали в других примерах, но Рим не был построен за один день. И сенату, который просит дать резюме, если у вас так мало времени, возможно, вам следует просто поверить мне на слово и обойтись без формальностей аналогий и ключевых моментов.

Энди У
источник

4

Я полностью согласен с тем, что этот вопрос как-то выходит за рамки этого форума. Определение ковариации как является наиболее ясным объяснение можно предложить. Он использует только понятие ожидания. Отказ от формулы ведет к неизбежно неполным и потенциально вводящим в заблуждение версиям. И это не может предоставить читателю человека для вычисления ковариации / корреляции в новой ситуации. Не лучший способ борьбы с неумеренностью.

cov (X, Y) = E [(X - E [X]) (Y - E [Y])]

$\text{cov}(X,Y)=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]$

Сиань

14

+1, это неплохо. Однако я бы не критиковал концептуальные представления. Я работал с людьми с достаточным математическим беспокойством, что показ формулы может их потерять. Я обычно их до скорости ж / интуиция 1, а затем пройти через математику просто и тщательно (как и вы здесь) позже . Таким образом, они просто учатся тому, как математика представляет то, что они уже знают, и, если они бросают умственно, они все равно изучают большие идеи. Как тангенциальная точка, я работаю через математику в Excel, что я считаю очень хорошим для этого.

gung

2

Пара костей (извините): в вашем верхнем уравнении вы делите на , но затем (правильно) обсуждаете деление на в соответствующей точке маркера; Я мог бы отметить, что называется «перекрестным произведением»; так как вы говорили о образце ковариации, когда вы получаете корреляции, я мог бы пропустить материал о и просто использовать ; наконец, корреляция рассчитывается из ковариации путем ее масштабирования относительно SD , а не дисперсий, см. здесь , например.

N

$N$

N - 1

$N-1$

(x_{i} - \bar{x}) (y_{i} - \bar{y})

$(x_i-\bar{x})(y_i-\bar{y})$

ρ

$\rho$

r

$r$

gung

Благодаря @gung, я изменил опечатку в первой формуле, а затем для корреляции я взял квадратный корень из умноженных дисперсий (вместо определения стандартного отклонения). При использовании rho против другого символа я не чувствую себя слишком сильно в любом случае. Если бы я преподавал и имел учебник, я бы, скорее всего, захотел соответствовать тексту. Надеюсь, еще один греческий символ не вызывает хаоса!

Энди В.

1

Если бы я мог поднять ваш ответ 100 раз, я бы сделал это. Какое ужасно ясное объяснение!

Джулиан А.

10

Корреляция (r) - это ковариация (cov) ваших переменных (x & y), деленная на (или скорректированная другими словами) каждое из их стандартных отклонений ( ). $\sqrt{Var[x]Var[y]}$

То есть корреляция - это просто представление ковариации, поэтому результат должен лежать между -1 (полностью обратно коррелированно) и +1 (полностью положительно коррелировано), отмечая, что значение, близкое к нулю, означает, что две переменные не коррелированы.

Ковариация не ограничена и не имеет контекста по сравнению с другими ковариациями. Нормализуя / корректируя / стандартизируя ковариации в корреляцию, можно легче сравнивать наборы данных.

Как вы можете себе представить, существуют различные способы нормализации / стандартизации статистики (например, ковариации). Математическая формула для отношения между корреляцией и ковариацией просто отражает использование статистиками соглашения (а именно, корректировка согласно их стандартным отклонениям):

r = \frac{c o v (x, y)}{\sqrt{V a r [x] V a r [y]}}

$r = \frac{cov(x,y)}{\sqrt{Var[x]Var[y]}}$

D Dawg
источник

5

Если вы знакомы с идеей центрирования и стандартизации, x-xbar должен центрировать x в его среднем значении. То же относится и к y. Таким образом, ковариация просто центрирует данные. Корреляция, однако, не только центрирует данные, но и масштабируется с использованием стандартного отклонения (стандартизации). Умножение и суммирование является точечным произведением двух векторов, и оно говорит о том, насколько параллельно эти два вектора сравниваются друг с другом (проекция одного вектора на другой). Деление (n-1) или принятие ожидаемого значения является шкалой для количества наблюдений. Мысли?

user31180
источник

3

Насколько я понял. Корреляция является «нормализованной» версией ковариации.

Карл Моррисон
источник

2

Как свидетельствуют многие посты , «нормализовать» имеет много разных значений. Какой вы используете?

whuber

-3

Корреляция масштабируется от -1 до +1 в зависимости от наличия положительной или отрицательной корреляции и является безразмерной. Однако ковариация колеблется от нуля, в случае двух независимых переменных, до Var (X), в случае, когда два набора данных равны. Единицами COV (X, Y) являются единицы X, умноженные на единицы Y.

Нагарадж
источник

6

Ковариация может быть отрицательной, поэтому она не ограничена нулем. Мне также непонятно, что вы подразумеваете под своим последним предложением, The units of COV(X,Y) are the units of X times the units of Y.хотите уточнить?

Энди W

@ AndyW не является ли часть единиц понятной из определения? . Оператор ожидания - это просто взвешенное среднее значений X / Y, и единицы измерения проходят.

Cov (X, Y) = E [(X - E [X]) (Y - E [Y])]

$\operatorname{Cov}(X,Y) = \operatorname{E}{\big[(X - \operatorname{E}[X])(Y - \operatorname{E}[Y])\big]}$

naught101

1

@ naught101, единицы проходят? Мой первоначальный комментарий к Нагараджу состоял в том, чтобы побудить меня внести ясность, так как неоднозначные заявления, подобные приведенному мною, бесполезны. Итак, почему мы не можем интерпретировать ковариацию как «единицы x, умноженные на единицы y», потому что это не то, что есть. Потенциально более правильное утверждение (для выборочной ковариации) могло бы быть « средним произведением средних отклонений ». продолжение ...

Энди W

1

Теперь средние отклонения, конечно, не совпадают с исходными единицами, и результирующая статистика для ковариации не просто зависит от среднего значения и дисперсии исходных атрибутов. Ковариация сама по себе ничего вам не говорит, не зная дисперсии исходных атрибутов.

Энди У

Как бы вы объяснили разницу между корреляцией и ковариацией?

Ответы: