Использование корреляции в качестве метрики расстояния (для иерархической кластеризации)

22

Я хотел бы иерархически кластеризовать свои данные, но вместо евклидова расстояния я хотел бы использовать корреляцию. Кроме того, поскольку коэффициент корреляции варьируется от -1 до 1, причем оба значения -1 и 1 обозначают «совместное регулирование» в моем исследовании, я отношусь к обоим -1 и 1 как к d = 0. Поэтому мой расчет равен d = 1 - | г | dзнак равно1-|р|

Я прочитал в отдельном вопросе (относительно кластеризации k-средних), что вы должны преобразовать r в истинное евклидово d, используя теорему косинуса: dзнак равно2(1-р)

Каков наиболее точный способ преобразования корреляции в расстояние для иерархической кластеризации?

Мегатрон
источник
3
Да, один из возможных - и геометрически верных путей - это последняя формула. Но вы можете игнорировать знак если он имеет смысл для вас, так что d 2 = 2 ( 1 - | r | ) . В большинстве случаев вы можете сбросить 2 безопасно, не влияя на результаты кластеризации. Расстояние может рассматриваться как евклидово квадратное . В этой теме обсуждалось, являются ли меры корреляции с преобразованием расстояния метрическими расстояниями. рd2знак равно2(1-|р|)2
ttnphns
2
Кроме того, вам не нужно всегда преобразовывать в линейное различие, такое как евклидово расстояние. Не так уж редко люди делают кластеризацию, основанную непосредственно на r или | г | что рр|р|
касается

Ответы:

21

Требования к иерархической кластеризации

Иерархическая кластеризация может использоваться с произвольными мерами сходства и различий. (Большинство инструментов ожидают различий, но допускают отрицательные значения - вы сами должны убедиться, что предпочтение будет отдано малым или большим значениям.).

Только методы, основанные на центроидах или дисперсии (такие как метод Уорда), являются особыми и должны использоваться с евклидовым квадратом. (Чтобы понять, почему, пожалуйста, внимательно изучите эти связи.)

Одинарная связь, средняя связь, полная связь не сильно затронуты, она все равно будет минимальным / средним / максимальным из парных различий.

Корреляция как мера расстояния

Если вы предварительно обработаете свои данные ( N наблюдений, п признаков) так, что у каждого объекта есть μзнак равно0 и σзнак равно1 (что запрещает постоянные объекты!), Тогда корреляция уменьшается до косинуса:

Корр(Икс,Y)знак равноCov(Икс,Y)σИксσYзнак равноЕ[(Икс-μИкс)(Y-μY)]σИксσYзнак равноЕ[ИксY]знак равно1NИкс,Y

При тех же условиях квадрат евклидова расстояния также уменьшается до косинуса:

dЕвклид2(Икс,Y)знак равноΣ(Икся-Yя)2знак равноΣИкся2+ΣYя2-2ΣИксяYязнак равно2N-2Икс,Yзнак равно2N[1-Корр(Икс,Y)]

Поэтому, если ваши данные не вырождены, использование корреляции для иерархической кластеризации должно быть в порядке. Просто обработайте его, как описано выше, а затем используйте квадрат Евклидова расстояния.

Аноним-Мусс-Восстановить Монику
источник
1
Only ward's method is special, and should be used with squared Euclidean, Не только Уорда. Любой метод, вычисляющий центроиды или отклонения от центроидов, будет нуждаться в евклидовом или квадратном евклидовом (в зависимости от реализации) расстоянии ради геометрической точности. При потере таких и соответствующих предупреждений их можно использовать с другими метрическими расстояниями. Этими методами являются центроид, "медиана", метод Уорда, дисперсия (не путать с методом Уорда!) И некоторые другие.
ttnphns
Спасибо, я прояснил это. Я не знал об этих вариациях, я думал только об одном / среднем / полном / приходе.
Anony-Mousse -Восстановить Монику
1
,dям