Проблема с ковариациями заключается в том, что их трудно сравнивать: когда вы вычисляете ковариацию набора высот и весов, выраженную в (соответственно) метрах и килограммах, вы получите другую ковариацию, чем когда вы делаете это в других единицах ( что уже создает проблему для людей, делающих то же самое с метрической системой или без нее!), но также будет трудно сказать, если (например) рост и вес «больше равняются», чем, скажем, длина пальцев рук и ног просто потому, что «масштаб», на котором рассчитана ковариация, отличается.
Решение этой проблемы состоит в том, чтобы «нормализовать» ковариацию: вы делите ковариацию на то, что представляет разнообразие и масштаб в обоих ковариатах, и в итоге получаете значение, которое гарантированно находится в диапазоне от -1 до 1: корреляция. Независимо от того, в какой единице были ваши исходные переменные, вы всегда получите один и тот же результат, и это также гарантирует, что вы можете в определенной степени сравнить, «две» переменные коррелируют с двумя другими, просто сравнив их корреляцию.
Примечание: вышеизложенное предполагает, что читатель уже понимает понятие ковариации.
cm
, а ваш Y -s
, то ваш . И тогда вы можете просто умножить на результат коэффициент преобразования единиц. Попробуйте это в R:cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
Требования этих типов вопросов кажутся мне немного странными. Вот математическая концепция / формула, но я хочу поговорить об этом в некотором контексте, полностью лишенном математических символов. Я также думаю, что следует заявить, что фактическая алгебра, необходимая для понимания формул, я думаю, должна преподаваться большинству людей до высшего образования (не требуется понимания матричной алгебры, достаточно простой алгебры).
Итак, сначала вместо того, чтобы полностью игнорировать формулу и говорить о ней в некоторых магических и эвристических аналогиях, давайте просто посмотрим на формулу и попытаемся объяснить отдельные компоненты небольшими шагами. Разница в терминах ковариации и корреляции при взгляде на формулы должна стать очевидной. Принимая во внимание, что если говорить с точки зрения аналогий и эвристики, я подозреваю, что эти два относительно простых понятия и их различия во многих ситуациях будут скрыты.
Итак, давайте начнем с формулы для выборочной ковариации (это я только что взял и принял из википедии);
Чтобы ускорить процесс, давайте четко определим все элементы и операции в формуле.
На этом этапе я мог бы представить простой пример, чтобы, так сказать, взглянуть на элементы и операции. Так, например, давайте просто составим таблицу, в которой каждая строка соответствует наблюдению (а и помечены соответствующим образом). Вероятно, можно было бы сделать эти примеры более конкретными (например, скажем, представляет возраст, а представляет вес), но для нашего обсуждения здесь это не имеет значения.x y x y
На этом этапе, если вы чувствуете, что операция суммирования в формуле, возможно, не была полностью понята, вы можете представить ее снова в гораздо более простом контексте. Скажем просто, представьте, что - то же самое, что сказано в этом примере;∑ni=1(xi)
Теперь этот беспорядок должен быть устранен, и мы можем ко второй части формулы . Теперь, предполагая, что люди уже знают, что означает среднее, обозначают и , и я бы сказал, лицемерно относясь к моим собственным комментариям ранее в этом посте, можно просто сослаться на среднее в терминах простая эвристика (например, середина распределения). Затем можно просто выполнить этот процесс по одной операции за раз. Утверждение(xi−x¯)(yi−y¯) x¯ y¯ (xi−x¯) просто исследует отклонения / расстояние между каждым наблюдением и среднее значение всех наблюдений для этого конкретного атрибута. Следовательно, когда наблюдение находится дальше от среднего значения, этой операции будет присвоено более высокое значение. Затем можно вернуться к приведенной таблице примеров и просто продемонстрировать операцию над вектором наблюдений.x
Операция такая же для вектора , но только для подкрепления вы можете также представить эту операцию.y
Теперь термины и не должны быть неоднозначными, и мы можем перейти к следующей операции, умножив эти результаты вместе, . Как указывает Ганг в комментариях, это часто называют перекрестным произведением (возможно, полезным примером для подведения итогов, если кто-то вводил базовую матричную алгебру для статистики).(xi−x¯) (yi−y¯) (xi−x¯)⋅(yi−y¯)
Обратите внимание на то, что происходит при умножении, если два наблюдения оба находятся на большом расстоянии выше среднего, результирующее наблюдение будет иметь еще большее положительное значение (то же самое верно, если оба наблюдения находятся на большом расстоянии ниже среднего, так как умножение двух негативов равно положительному). Также обратите внимание, что если одно наблюдение намного выше среднего, а другое значительно ниже среднего, результирующее значение будет большим (в абсолютном выражении) и отрицательным (в положительное время отрицательное равно отрицательному числу). В заключение отметим, что когда значение очень близко к среднему для любого наблюдения, умножение двух значений приведет к небольшому числу. Опять же, мы можем просто представить эту операцию в виде таблицы.
Теперь, если в комнате есть какие-то статистики, они должны кипеть в ожидании. Мы можем видеть все отдельные элементы того, что такое ковариация и как она рассчитывается. Теперь все, что нам нужно сделать, это подвести итоги в последнем результате в предыдущей таблице, разделить на и вуаля , ковариация больше не должна быть мистической (все с определением только одного греческого символа).n−1
В этот момент вы можете уточнить, откуда исходит 5, но это должно быть так же просто, как вернуться к таблице и подсчитать количество наблюдений (давайте снова оставим разницу между выборкой и популяцией в другое время).
Теперь ковариация сама по себе не говорит нам много (она может, но на данном этапе нет необходимости приводить какие-либо интересные примеры, не прибегая к волшебным, неопределенным ссылкам на аудиторию). В хорошем сценарии вам не нужно продавать, почему мы должны заботиться о том, что такое ковариация, в других обстоятельствах вы можете просто надеяться, что ваша аудитория захвачена и примет ваше слово. Но, продолжая развивать разницу между тем, что такое ковариация и какова корреляция, мы можем просто вернуться к формуле корреляции. Чтобы предотвратить греческий символ фобии, просто скажите, что - это общий символ, используемый для представления корреляции.ρ
Опять же, повторюсь, числитель в предыдущей формуле - это просто ковариация, как мы только что определили, а знаменатель - это квадратный корень из произведения дисперсии каждой отдельной серии. Если вам нужно определить саму дисперсию, вы можете просто сказать, что дисперсия - это то же самое, что и ковариация ряда с самим собой (т. ). Применимы все те же понятия, которые вы ввели с ковариацией (т. Е. Если ряд имеет много значений далеко от среднего значения, он будет иметь высокую дисперсию). Здесь следует отметить, что ряд не может также иметь отрицательную дисперсию (что должно логически следовать из ранее представленной математики).Cov(x,x)=Var(x)
Таким образом, единственные новые компоненты, которые мы ввели, находятся в знаменателе, . Таким образом, мы делим ковариацию, которую мы только что рассчитали, на произведение дисперсий каждой серии. Можно было бы остановиться на том, почему деление на всегда будет приводить к значению от -1 до 1, но я подозреваю, что неравенство Коши-Шварца следует исключить из повестки дня для это обсуждение. Итак, еще раз, я лицемер и прибегаю к некоторым, поверьте мне на слово , но на этом этапе мы можем представить все причины, по которым мы используем коэффициент корреляции. Затем можно связать эти уроки математики с эвристикой, которая была дана в других утверждениях, таких как ответ Питера Флома.Var(x)Var(y) Var(x)Var(y)−−−−−−−−−−−√ на один из других вопросов. Хотя это критиковалось за представление концепции с точки зрения причинно-следственных связей, этот урок также должен быть в повестке дня.
Я понимаю, что в некоторых обстоятельствах такой уровень лечения не подходит. Сенат нуждается в исполнительном резюме . В этом случае, вы можете вернуться к простой эвристике, которую люди использовали в других примерах, но Рим не был построен за один день. И сенату, который просит дать резюме, если у вас так мало времени, возможно, вам следует просто поверить мне на слово и обойтись без формальностей аналогий и ключевых моментов.
источник
Корреляция (r) - это ковариация (cov) ваших переменных (x & y), деленная на (или скорректированная другими словами) каждое из их стандартных отклонений ( ).Var[x]Var[y]−−−−−−−−−−−√
То есть корреляция - это просто представление ковариации, поэтому результат должен лежать между -1 (полностью обратно коррелированно) и +1 (полностью положительно коррелировано), отмечая, что значение, близкое к нулю, означает, что две переменные не коррелированы.
Ковариация не ограничена и не имеет контекста по сравнению с другими ковариациями. Нормализуя / корректируя / стандартизируя ковариации в корреляцию, можно легче сравнивать наборы данных.
Как вы можете себе представить, существуют различные способы нормализации / стандартизации статистики (например, ковариации). Математическая формула для отношения между корреляцией и ковариацией просто отражает использование статистиками соглашения (а именно, корректировка согласно их стандартным отклонениям):
источник
Если вы знакомы с идеей центрирования и стандартизации, x-xbar должен центрировать x в его среднем значении. То же относится и к y. Таким образом, ковариация просто центрирует данные. Корреляция, однако, не только центрирует данные, но и масштабируется с использованием стандартного отклонения (стандартизации). Умножение и суммирование является точечным произведением двух векторов, и оно говорит о том, насколько параллельно эти два вектора сравниваются друг с другом (проекция одного вектора на другой). Деление (n-1) или принятие ожидаемого значения является шкалой для количества наблюдений. Мысли?
источник
Насколько я понял. Корреляция является «нормализованной» версией ковариации.
источник
Корреляция масштабируется от -1 до +1 в зависимости от наличия положительной или отрицательной корреляции и является безразмерной. Однако ковариация колеблется от нуля, в случае двух независимых переменных, до Var (X), в случае, когда два набора данных равны. Единицами COV (X, Y) являются единицы X, умноженные на единицы Y.
источник
The units of COV(X,Y) are the units of X times the units of Y.
хотите уточнить?