Рассмотрим пример R ниже:
plot( hclust(dist(USArrests), "ave") )
Что именно означает ось Y "Высота"?
Глядя на Северную Каролину и Калифорнию (скорее слева). Калифорния "ближе" к Северной Каролине, чем Аризона? Могу ли я сделать эту интерпретацию?
Гавайи (справа) присоединяются к группе довольно поздно. Я могу видеть это, поскольку это "выше" чем другие государства. В общем, как я могу правильно интерпретировать тот факт, что метки «выше» или «ниже» в дендрограмме?
?hclust
.Ответы:
1) Ось Y является мерой близости отдельных точек данных или кластеров.
2) Калифорния и Аризона в равной степени отдалены от Флориды, потому что CA и AZ находятся в кластере, прежде чем присоединиться к FL.
3) Гавайи присоединяются довольно поздно; около 50. Это означает, что кластер, к которому он присоединяется, ближе друг к другу, прежде чем HI присоединится. Но не намного ближе. Обратите внимание, что кластер, к которому он присоединяется (тот, который расположен полностью справа), формируется только около 45. Тот факт, что HI присоединяется к кластеру позже, чем любое другое состояние, просто означает, что (с использованием любой выбранной вами метрики) HI не так близко к любое конкретное состояние.
источник
У меня были те же вопросы, когда я пытался изучить иерархическую кластеризацию, и я обнаружил, что следующий PDF очень полезен.
http://www.econ.upf.edu/~michael/stanford/maeb7.pdf
Даже если Ричард уже знает об этой процедуре, другие, кто просматривает вопрос, могут, вероятно, использовать pdf, его очень простой и понятный esp для тех, у кого недостаточно математического фона.
источник
Горизонтальная ось представляет кластеры. Вертикальная шкала на дендрограмме представляет расстояние или различие. Каждое соединение (слияние) двух кластеров представлено на диаграмме разбиением вертикальной линии на две вертикальные линии. Вертикальная позиция разделения, показанная короткой полосой, дает расстояние (различие) между двумя кластерами.
источник