Допустим, мы определяем расстояние, которое не является метрикой , между N элементами.
На основании этого расстояния мы затем используем агломерационную иерархическую кластеризацию .
Можем ли мы использовать каждый из известных алгоритмов (одиночная / максимальная / средняя связь и т. Д.), Чтобы получить значимые результаты? Или, другими словами, в чем проблема с их использованием, если расстояние не является метрикой?
Ответы:
Требования к расстояниям зависят от метода иерархической кластеризации. Одиночные, полные, средние методы нуждаются в расстояниях, чтобы быть неотрицательными и симметричными. Методы Уорда, центроида и медианы нуждаются (в квадрате) в евклидовом (что даже более узкое определение, чем метрическое) расстояния, чтобы получить геометрически значимые результаты.
(Можно проверить, является ли его / ее матрица расстояний евклидовой, дважды центрировав ее [см. Мой ответ здесь ] и посмотрев на собственные значения; если не найдено отрицательных собственных значений, тогда расстояния действительно сходятся в евклидовом пространстве.)
источник
Нет, расстояние не должно быть метрикой. Например, он может быть ультраметрическим:
Ультраметрические расстояния, полученные из последовательных шагов в алгоритме кластеризации, могут быть представлены с помощью дендрограмм, которые вы, возможно, видели в этом контексте.
источник