Я хотел бы иерархически кластеризовать свои данные, но вместо евклидова расстояния я хотел бы использовать корреляцию. Кроме того, поскольку коэффициент корреляции варьируется от -1 до 1, причем оба значения -1 и 1 обозначают «совместное регулирование» в моем исследовании, я отношусь к обоим -1 и 1 как к d = 0. Поэтому мой расчет равен d = 1 - | г |
Я прочитал в отдельном вопросе (относительно кластеризации k-средних), что вы должны преобразовать r в истинное евклидово d, используя теорему косинуса:
Каков наиболее точный способ преобразования корреляции в расстояние для иерархической кластеризации?
Ответы:
Требования к иерархической кластеризации
Иерархическая кластеризация может использоваться с произвольными мерами сходства и различий. (Большинство инструментов ожидают различий, но допускают отрицательные значения - вы сами должны убедиться, что предпочтение будет отдано малым или большим значениям.).
Только методы, основанные на центроидах или дисперсии (такие как метод Уорда), являются особыми и должны использоваться с евклидовым квадратом. (Чтобы понять, почему, пожалуйста, внимательно изучите эти связи.)
Одинарная связь, средняя связь, полная связь не сильно затронуты, она все равно будет минимальным / средним / максимальным из парных различий.
Корреляция как мера расстояния
Если вы предварительно обработаете свои данные (N наблюдений, п признаков) так, что у каждого объекта есть μ = 0 и σ= 1 (что запрещает постоянные объекты!), Тогда корреляция уменьшается до косинуса:
При тех же условиях квадрат евклидова расстояния также уменьшается до косинуса:
Поэтому, если ваши данные не вырождены, использование корреляции для иерархической кластеризации должно быть в порядке. Просто обработайте его, как описано выше, а затем используйте квадрат Евклидова расстояния.
источник
Only ward's method is special, and should be used with squared Euclidean
, Не только Уорда. Любой метод, вычисляющий центроиды или отклонения от центроидов, будет нуждаться в евклидовом или квадратном евклидовом (в зависимости от реализации) расстоянии ради геометрической точности. При потере таких и соответствующих предупреждений их можно использовать с другими метрическими расстояниями. Этими методами являются центроид, "медиана", метод Уорда, дисперсия (не путать с методом Уорда!) И некоторые другие.