У меня есть ковариационная матрица и я хочу разделить переменные на k кластеров, используя иерархическую кластеризацию (например, для сортировки ковариационной матрицы).
Существует ли типичная функция расстояния между переменными (то есть между столбцами / строками квадратной ковариационной матрицы)?
Или, если есть еще, есть хорошая ссылка на тему?
clustering
covariance
distance-functions
distance
Петр Мигдаль
источник
источник
Ответы:
Обратите внимание, что эта формула означает, что отрицательная ковариация - это большее расстояние, чем положительная ковариация (и это действительно так с геометрической точки зрения, т.е. когда переменные рассматриваются как векторы в предметном пространстве ). Если вы не хотите, чтобы знак ковариации играл роль, отмените отрицательный знак. Игнорирование отрицательного знака не является операцией «исправления вручную» и оправдано, когда это необходимо: если матрица cov положительно определена, матрица abs (cov) также будет положительно определена; и, следовательно, расстояния, полученные по вышеприведенной формуле, будут истинными евклидовыми расстояниями (евклидово расстояние - это особый вид метрического расстояния).
Евклидовы расстояния универсальны в отношении иерархической кластеризации : любой метод такой кластеризации действителен как с евклидовым, так и с евклидовым квадратом d . Но некоторые методы, например, средняя или полная связь, могут использоваться с любым различием или сходством (не только с метрическими расстояниями). Таким образом, вы можете использовать такие методы напрямую с матрицей cov или abs (cov) или - просто, например - с матрицей расстояния max (abs (cov)) - abs (cov) . Конечно, результаты кластеризации потенциально зависят от точного характера используемого (не) сходства.
источник
Почему бы не использовать корреляционную матрицу для кластеризации? Предполагая, что ваши случайные переменные центрированы, вычисляя корреляцию между переменными, вы вычисляете расстояние сходства косинусов . Это расстояние также упоминается в вашей ссылке. Это расстояние можно использовать для иерархической кластеризации. Чем меньше 1 - | косинусное сходство |, тем больше ваши переменные.
источник