Каковы расстояния между переменными, составляющими ковариационную матрицу?

11

У меня есть ковариационная матрица и я хочу разделить переменные на k кластеров, используя иерархическую кластеризацию (например, для сортировки ковариационной матрицы).n×nk

Существует ли типичная функция расстояния между переменными (то есть между столбцами / строками квадратной ковариационной матрицы)?

Или, если есть еще, есть хорошая ссылка на тему?

Петр Мигдаль
источник
Почему вы хотите использовать иерархическую кластеризацию по переменным? Как правило, мы думаем о матрице данных , с переменными в столбцах и наблюдениями в строках. Если вы хотите искать скрытые группировки, вы можете попробовать, например, иерархическую кластеризацию по строкам / наблюдениям или, например, факторный анализ по столбцам / переменным. X
gung - Восстановить Монику
@Piotr, да, ковариация (или корреляция или косинус) может быть легко и естественно преобразована в евклидово расстояние, потому что это скалярное произведение (= сходство углового типа). Знание ковариации между двумя переменными, а также их дисперсий автоматически подразумевает знание d между переменными: . d2=σ12+σ222cov
ttnphns
Обратите внимание, что эта формула означает, что отрицательная ковариация - это большее расстояние, чем положительная ковариация (и это действительно так с геометрической точки зрения). Если вы не хотите, чтобы знак ковариации играл роль, отмените отрицательный знак.
ttnphns
@gung Это симметричная матрица, поэтому строки ~ столбцы. Для меня очень важно разделить его на наборы переменных, а не «вращать» их с помощью факторного анализа (на самом деле, я работаю не со стандартной матрицей, а со сложной (матрица плотности в квантовой механике)).
Петр Мигдаль
@ttnphns Спасибо. Меня беспокоит то, что я хочу отделить некоррелированные переменные - отрицательная корреляция для меня (почти) так же хороша, как и положительная.
Петр Мигдаль

Ответы:

13

dij2=σi2+σj22covijdij2прямо пропорционально обычному квадрату евклидова расстояния : вы получите последнее, если вместо дисперсий и ковариации будете использовать суммы квадратов и сумму перекрестных произведений. Обе переменные должны быть изначально центрированы: говорить о «ковариациях» - это псевдоним мышления о данных с удаленными средствами.)

Обратите внимание, что эта формула означает, что отрицательная ковариация - это большее расстояние, чем положительная ковариация (и это действительно так с геометрической точки зрения, т.е. когда переменные рассматриваются как векторы в предметном пространстве ). Если вы не хотите, чтобы знак ковариации играл роль, отмените отрицательный знак. Игнорирование отрицательного знака не является операцией «исправления вручную» и оправдано, когда это необходимо: если матрица cov положительно определена, матрица abs (cov) также будет положительно определена; и, следовательно, расстояния, полученные по вышеприведенной формуле, будут истинными евклидовыми расстояниями (евклидово расстояние - это особый вид метрического расстояния).

Евклидовы расстояния универсальны в отношении иерархической кластеризации : любой метод такой кластеризации действителен как с евклидовым, так и с евклидовым квадратом d . Но некоторые методы, например, средняя или полная связь, могут использоваться с любым различием или сходством (не только с метрическими расстояниями). Таким образом, вы можете использовать такие методы напрямую с матрицей cov или abs (cov) или - просто, например - с матрицей расстояния max (abs (cov)) - abs (cov) . Конечно, результаты кластеризации потенциально зависят от точного характера используемого (не) сходства.

ttnphns
источник
dij2dij2
@HelloGoodbye, да, я подразумеваю две переменные (векторы) с равными средствами - фактически, со средствами, удаленными, в первую очередь.
ttnphns
3

Почему бы не использовать корреляционную матрицу для кластеризации? Предполагая, что ваши случайные переменные центрированы, вычисляя корреляцию между переменными, вы вычисляете расстояние сходства косинусов . Это расстояние также упоминается в вашей ссылке. Это расстояние можно использовать для иерархической кластеризации. Чем меньше 1 - | косинусное сходство |, тем больше ваши переменные.

Хорхе Бануэлос
источник
d(i,j)=1Aij2/(AiiAjj)
3
Ах, извините за недоразумение. Лучший источник, о котором я знаю, это . Они изучают качество нескольких метрик (которые используют корреляцию) с иерархической кластеризацией. Для иерархической кластеризации я обычно пробую много метрик и вижу, какие из них лучше всего подходят для моей конкретной цели и данных.
Хорхе Бануэлос
ссылка больше не работает?
Матифу