Я использую иерархическую кластеризацию для анализа данных временных рядов. Мой код реализован с использованием функции MathematicaDirectAgglomerate[...]
, которая генерирует иерархические кластеры с учетом следующих входных данных:
матрица расстояний D
название метода, используемого для определения межкластерной связи.
Я рассчитал матрицу расстояний D, используя расстояние Манхэттен:
где и n ≈ 150 - количество точек данных в моем временном ряду.
У меня вопрос: можно ли использовать межкластерную связь Уорда с матрицей расстояний Манхэттена? Некоторые источники предполагают, что связь Уорда должна использоваться только с евклидовым расстоянием.
Обратите внимание, что для DirectAgglomerate[...]
расчета связи Уорда используется только матрица расстояний, а не исходные наблюдения. К сожалению, я не уверен, как Mathematica модифицирует оригинальный алгоритм Уорда, который (из моего понимания) работал, сводя к минимуму сумму ошибок квадратов наблюдений, вычисленных относительно среднего значения кластера. Например, для кластера состоящего из вектора одномерных наблюдений, Уорд сформулировал сумму ошибок квадратов как:
(Другие программные инструменты, такие как Matlab и R, также реализуют кластеризацию Уорда, используя только матрицу расстояний, поэтому этот вопрос не является специфическим для Mathematica.)
источник
agnes
в кластере пакета.Ответы:
Алгоритм кластеризации Уорда - это иерархический метод кластеризации, который минимизирует критерии «инерции» на каждом этапе. Эта инерция количественно определяет сумму квадратов невязок между уменьшенным сигналом и исходным сигналом: это мера дисперсии ошибки в l2 (евклидовом) чувстве. На самом деле, вы даже упоминаете об этом в своем вопросе. Вот почему, я думаю, нет смысла применять его к матрице расстояний, которая не является евклидовым расстоянием.
С другой стороны, средняя связь или иерархическая кластеризация с одной связью была бы идеально подходящей для других расстояний.
источник
Я не могу придумать причину, по которой Уорд должен отдавать предпочтение какой-либо метрике. Метод Уорда - это просто еще один вариант, чтобы решить, какие кластеры следует объединить во время агломерации. Это достигается путем нахождения двух кластеров, слияние которых минимизирует определенную ошибку ( примерный источник для формулы ).
Следовательно, он опирается на две концепции:
Итак: Пока свойства выбранной метрики (например, вращение, перемещение или масштабная инвариантность) удовлетворяют ваши потребности (а метрика соответствует способу вычисления среднего значения кластера), я не вижу никакой причины не использовать его ,
Я подозреваю, что большинство людей предлагают евклидову метрику, потому что они
источник
источник