Есть ли интуитивная характеристика дистанционной корреляции?

14

Я смотрел на страницу Википедии для корреляции расстояний, где она, кажется, характеризуется тем, как ее можно рассчитать. В то время как я мог делать вычисления, я изо всех сил пытаюсь получить, какие меры корреляции расстояния и почему вычисления выглядят, как они делают.

Есть ли (или многие) более интуитивная характеристика дистанционной корреляции, которая могла бы помочь мне понять, что она измеряет?

Я понимаю, что просьба об интуиции немного расплывчата, но если бы я знал, какую интуицию я просил, я бы, наверное, не спрашивал. Я также был бы рад за интуицию относительно случая корреляции расстояния между двумя случайными переменными (даже если корреляция расстояния определена между двумя случайными векторами).

Расмус Батх
источник

Ответы:

8

Этот мой ответ не дает правильного ответа на вопрос. Пожалуйста, прочитайте комментарии.

Давайте сравним обычную ковариацию и ковариацию расстояния . Эффективной частью обоих являются их числители. (Знаменатели просто усредняют.) Числитель ковариации представляет собой суммированное перекрестное произведение (= скалярное произведение) отклонений от одной точки, среднее: (с индексом μ как этот центроид). Чтобы переписать выражение в этом стиле: Σ d x i μ d y i μ , с dΣ(xiμx)(yiμy)μΣdiμxdiμydобозначает отклонение точки от центроида, то есть ее (подписанное) расстояние до центроида. Ковариация определяется суммой произведений двух расстояний по всем точкам.i

Как обстоят дела с дистанционной ковариацией ? Числитель, как вы знаете, . Разве это не очень похоже на то, что мы написали выше? А какая разница? Здесь расстояние d находится между различными точками данных , а не между точкой данных и средним значением, как указано выше. Ковариация расстояния определяется суммой произведений двух расстояний по всем парам точек.Σdijxdijyd

Скалярное произведение (между двумя объектами - в нашем случае переменными и y ), основанное на совместном расстоянии от одной фиксированной точки, максимизируется, когда данные располагаются вдоль одной прямой линии . Скалярное произведение, основанное на совместном расстоянии от точки var * i *, максимизируется, когда данные располагаются вдоль прямой линии локально, кусочно; другими словами, когда данные в целом представляютxy цепочку любой формы , зависимость любой формы.

И действительно, обычная ковариация больше, когда отношения ближе к идеальным линейным, а дисперсии больше. Если вы стандартизируете отклонения для фиксированной единицы, ковариация зависит только от силы линейной ассоциации, и тогда она называется корреляцией Пирсона . И, как мы знаем - и просто обладаем некоторой интуицией, почему - ковариация расстояния больше, когда отношения ближе к идеальной кривой и разбросам данных больше. Если вы стандартизируете спреды для фиксированной единицы, ковариация зависит только от силы некоторой криволинейной ассоциации, и тогда она называется броуновской (дистанционной) корреляцией .

ttnphns
источник
Второй абзац заставил меня щелкнуть. Я не знаю, почему я не увидел этого на странице википедии ... Спасибо!
Расмус Батх
Просто интересно, где в en.wikipedia.org/wiki/Brownian_covariance#Distance_covariance числитель из вашего примера (или как перейти от вашего числителя к версии википедии)? Википедия просто опишет, как рассчитать квадрат ковариации расстояния, и у меня возникли проблемы с сопоставлением вашего описания с описанием там ...
Rasmus Bååth
@Rasmus, моя «формула числителя» согласуется с формулой Википедии квадратичной ковариации расстояния образца. Но я упустил один (важный) нюанс, что расстоянияdтрансформируются двойным центрированием. Поэтому, возможно, мне придется отредактировать свой ответ. Я надеюсь найти время, чтобы вернуться через несколько дней, если не завтра.
ttnphns
Да, двойное центрирование меня озадачило. Был бы очень признателен, если бы у вас было время уточнить это! :)
Rasmus Bååth
1
Что до сих пор уклоняется от меня, так это почему более низкая мощность, например, по умолчаниюαзнак равно1, который уменьшает и уменьшает отклонения, полученные при двойном центрировании, делает dCOV статистикой, которая имеет свое уникальное свойство: она равна 0, если X и Y статистически независимы. Поскольку у меня нет интуиции или знаний об этом, я боюсь, что 2-й параграф моего ответа - неверное истолкование или упрощение. Поэтому я склонен удалить свой ответ. Ты можешь что-нибудь сказать?
ttnphns