Выбор правильного метода связи для иерархической кластеризации

33

Я выполняю иерархическую кластеризацию данных, которые я собрал и обработал из дампа данных Reddit в Google BigQuery.

Мой процесс следующий:

  • Получить последние 1000 сообщений в / г / политика
  • Соберите все комментарии
  • Обработка данных и вычисление n x mматрицы данных (n: пользователи / образцы, m: сообщения / функции)
  • Рассчитать матрицу расстояний для иерархической кластеризации
  • Выберите метод связи и выполните иерархическую кластеризацию
  • График данных в виде дендрограммы

У меня вопрос, как мне определить, какой метод лучшей связи ? Я в настоящее время использую , Wardно , как я знаю , если я должен использовать single, complete, averageи т.д.?

Я очень новичок в этом, но я не могу найти четкий ответ в Интернете, так как я не уверен, что он есть. Так что может быть хорошей идеей для моего приложения? Обратите внимание, что данные относительно скудны в том смысле, что в n x mматрице много нулей (большинство людей не комментируют более нескольких постов).

Кевин Эгер
источник
Если оставить в стороне конкретную проблему со связью, что будет означать «лучший» в вашем контексте?
gung - Восстановить Монику
Лучше всего для меня найти наиболее логичный способ связать мои данные. То есть: какой подход точно определяет, что подразумевается под «расстоянием» в моих чертах.
Кевин Эгер
2
Кевин, пожалуйста, взгляните на этот ответ и на этот самый последний вопрос . Вы узнаете, что вопрос («какой метод использовать»), который вы поднимаете, не из легких. Вы должны обязательно прочитать литературу о кластеризации (по крайней мере, иерархической), прежде чем вы сможете увидеть разницу между методами и уметь выбирать. Анализ данных не должен быть обработан от руки.
ttnphns
1
@ttnphns, спасибо за ссылку - это было хорошее чтение, и я приму эти моменты к сведению.
Кевин Эгер

Ответы:

58

Обзор методов

Краткая справка о некоторых методах сцепления иерархического агломерационного кластерного анализа (HAC).

Базовая версия алгоритма HAC является одной общей; на каждом этапе она сводится к обновлению формулой, известной как формула Ланса-Уильямса, близости между возникающим (объединенным из двух) кластером и всеми другими кластерами (включая одноэлементные объекты), существующими до сих пор. Существуют реализации, не использующие формулу Ланса-Уильямса. Но использовать его удобно: он позволяет кодировать различные методы связывания одним и тем же шаблоном.

Формула повторения включает в себя несколько параметров (альфа, бета, гамма). В зависимости от метода связи параметры устанавливаются по-разному, поэтому развернутая формула получает конкретное представление. Многие тексты по HAC показывают формулу, ее специфичные для метода представления и объясняют методы. Я бы порекомендовал статьи Яноша Подани как очень основательные.

Пространство и потребность в различных методах проистекают из того факта, что близость (расстояние или сходство) между двумя кластерами или между кластером и одноэлементным объектом может быть сформулирована многими различными способами. HAC объединяет на каждом шаге два наиболее близких кластера или точки, но проблема в том, как вычислить вышеупомянутую близость в грани, в которой входная матрица близости была определена только между одноэлементными объектами.

Таким образом, методы различаются в отношении того, как они определяют близость между любыми двумя кластерами на каждом этапе. «Коэффициент коллигации» (вывод в графике / истории агломерации и формирование оси «Y» на дендрограмме) - это просто близость между двумя кластерами, объединенными на данном шаге.

  • Метод одиночной связи или ближайшего соседа . Близость между двумя кластерами - это близость между двумя ближайшими объектами. Это значение является одним из значений входной матрицы. Концептуальная метафора этого построена из кластера, его архетип, является спектр или цепь . Цепочки могут быть прямыми или криволинейными, или могут иметь вид «снежинки» или «амебы». Два самых разных элемента кластера могут оказаться очень разными по сравнению с двумя самыми похожими. Метод одиночной связи контролирует сходство только ближайших соседей.

  • Метод полной связи или дальний сосед . Близость между двумя скоплениями - это близость между их двумя наиболее удаленными объектами. Это значение является одним из значений входной матрицы. Метафора этого построенного кластера представляет собой круг (в смысле, по хобби или сюжету), где два наиболее удаленных друг от друга члена не могут быть намного более разнородными, чем другие совершенно разные пары (как в круге). Такие кластеры представляют собой «компактные» контуры по границам, но они не обязательно компактны внутри.

  • Метод межгрупповой средней связи (UPGMA). Близость между двумя кластерами - это среднее арифметическое всех значений близости между объектами одного, с одной стороны, и объектами другого, с другой. Метафора этого построенного из кластера довольно общая, просто объединенный класс или сплоченный коллектив; и этот метод часто устанавливается по умолчанию в пакетах иерархической кластеризации. Кластеры разных форм и контуров могут быть получены.

  • Простое среднее или метод равновесного межгруппового связывания (WPGMA) является модифицированным предыдущим. Близость между двумя кластерами - это среднее арифметическое всех значений близости между объектами одного, с одной стороны, и объектами другого, с другой стороны; в то время как подкластеры, в которые каждый из этих двух кластеров недавно был объединен, оказали уравновешенное влияние на эту близость - даже если подкластеры различались по количеству объектов

  • Метод внутригрупповой средней связи (MNDIS). Близость между двумя кластерами является средним арифметическим всех соседей в их совместном кластере. Этот метод является альтернативой UPGMA. Как правило, он проигрывает ему с точки зрения плотности кластеров, но иногда обнаруживает формы кластеров, которые UPGMA не будет.

  • Центроидный метод (UPGMC). Близость между двумя кластерами - это близость между их геометрическими центроидами: [квадрат] евклидово расстояние между ними. Метафора этого построенного кластера - близость платформ (политика). Как и в политических партиях, в таких кластерах могут быть фракции или «фракции», но если их центральные фигуры не отделены друг от друга, союз будет последовательным. Кластеры могут быть различными по структуре.

  • Срединный или равновесный центроидный метод (WPGMC) является модифицированным предыдущим. Близость между двумя кластерами - это близость между их геометрическими центроидами ([квадрат] евклидово расстояние между ними); в то время как центроиды определены так, что подкластеры, в которые каждый из этих двух кластеров был недавно объединен, имеют уравновешенное влияние на его центроид, даже если подкластеры различаются по количеству объектов.

  • SS12-(SS1+SS2)2, Интуитивно понятно, что тип - это облако, более плотное и более концентричное к его середине, тогда как маргинальные точки немногочисленны и могут быть относительно свободно рассеяны.

Некоторые из менее известных методов (см. Подани Дж. Новые комбинаторные методы кластеризации // Vegetatio, 1989, 81: 61-77.) [Также реализованный мной как макрос SPSS, найденный на моей веб-странице]:

  • SS122

  • MS12-(N1MS1+N2MS2)/(N1+N2)знак равно[SS12-(SS1+SS2)]/(N1+N2)4

  • MS12знак равноSS12/(N1+N2)4

Первые 5 методов допускают любые меры близости (любые сходства или расстояния), и результаты, естественно, будут зависеть от выбранной меры.

Последние 6 методов требуют расстояний; и совершенно правильно будет использовать с ними только квадрат евклидовых расстояний , потому что эти методы вычисляют центроиды в евклидовом пространстве. Поэтому расстояния должны быть евклидовы ради геометрической правильности (эти 6 методов называются методами геометрической связи). В худшем случае вы можете ввести другую метрикурасстояния при допущении более эвристического, менее строгого анализа. Теперь об этом "квадрате". Вычисление центроидов и отклонений от них наиболее удобно математически / программно выполнять на квадратах расстояний, поэтому обычно требуется, чтобы пакеты HAC вводились и настраивались для обработки квадратов. Тем не менее, существуют реализации - полностью эквивалентные, но немного более медленные - основанные на вводе неквадратных расстояний и требующие их; см., например, реализацию "Ward-2" для метода Ward. Вы должны проконсультироваться с документацией вашей программы кластеризации, чтобы узнать, какие квадраты или нет - расстояния, которые она ожидает при вводе «геометрического метода», чтобы сделать это правильно.

Методы MNDIS, MNSSQ и MNVAR требуют, чтобы на этапах, в дополнение к простому обновлению формулы Лэнса-Уильямса, сохранялась статистика внутри кластера (которая зависит от метода).

Методы, которые наиболее часто используются в исследованиях, где кластеры должны быть сплошными, более или менее круглыми облаками, - это методы средней связи, метод полной связи и метод Уорда.

Метод Уорда по своим свойствам и эффективности наиболее близок к кластеризации K-средних; они выполняют одну и ту же целевую функцию - минимизацию объединенных SS внутри кластера «в конце». Конечно, K-означает (будучи итеративным и если обеспечено приличными начальными центроидами), как правило, лучше минимизировать его, чем Уорд. Тем не менее, Уорд кажется мне немного более точным, чем К-среднее, в обнаружении скоплений неравномерных физических размеров (отклонений) или скоплений, разбросанных по пространству очень неравномерно. Метод MIVAR для меня странный, я не могу себе представить, когда его можно рекомендовать, он не дает достаточно плотных кластеров.

Методы центроид, медиана, минимальное увеличение дисперсии - могут иногда давать так называемые развороты : явление, когда два кластера, объединяемые на каком-то шаге, кажутся ближе друг к другу, чем пары кластеров, слитых ранее. Это потому, что эти методы не относятся к так называемым ультраметрическим. Эта ситуация неудобна, но теоретически в порядке.

Методы одиночного сцепления и центроида относятся к так называемому пространственному сокращению или «сцеплению». Это означает, грубо говоря, что они имеют тенденцию прикреплять объекты один за другим к кластерам, и поэтому они демонстрируют относительно плавный рост кривой «% кластерных объектов». Напротив, методы полного сцепления, распределения Уорда, суммы квадратов, увеличения дисперсии и дисперсии обычно получают значительную долю объектов, кластеризованных даже на ранних этапах, а затем продолжают объединять еще те - следовательно, их кривую «% кластеризованных объектов». Крутой от первых шагов. Эти методы называются расширением пространства . Другие методы находятся между ними.

Гибкие версии . Добавив дополнительный параметр в формулу Ланса-Виллиана, можно сделать метод самонастраивающимся на своих этапах. Параметр вносит поправку на вычисляемую близость между кластерами, которая зависит от размера (степени разуплотнения) кластеров. Значение этого параметра заключается в том, что он делает метод агломерации более пространственным расширением или сокращением пространства, чем обречен стандартный метод. На сегодняшний день наиболее известной реализацией гибкости является усреднение методов связывания UPGMA и WPGMA (Белбин Л. и др. Сравнение двух подходов к бета-гибкой кластеризации // Multivariate Behavioral Research, 1992, 27, 417–433. ).

Дендрограмма. На оси дендрограммы «Y» обычно отображается близость между объединяющимися кластерами, как определено выше. Поэтому, например, в центроидном методе квадратное расстояние обычно измеряется (в конечном счете, оно зависит от пакета и его опций) - некоторые исследователи не знают об этом. Кроме того, по традиции, методы, основанные на увеличении плотности, такие как методы Уорда, обычно показанные на дендрограмме, имеют кумулятивное значение - это скорее по соображениям удобства, чем теоретическим. Таким образом, (во многих пакетах) построенный коэффициент в методе Уорда представляет общую, по всем кластерам, сумму квадратов внутри кластера, наблюдаемую в момент данного шага.

Следует воздержаться от суждения о том, какой метод связи «лучше» для его данных, сравнивая внешний вид дендрограмм: не только потому, что внешний вид меняется, когда вы меняете, какую модификацию коэффициента вы строите там - как это было только что описано, - но потому, что внешний вид будет отличаться даже на данных без кластеров.

Выбрать «правильный» метод

Там нет единого критерия. Некоторые рекомендации о том, как выбрать метод кластерного анализа (в том числе метод связи в HAC в конкретном случае), изложены в этом ответе и во всей его цепочке.

ttnphns
источник
1

Корреляция между матрицей расстояний и копенетическим расстоянием является одной метрикой, помогающей оценить, какую кластерную связь выбрать. От ?cophenetic:

Можно утверждать, что дендрограмма является подходящей сводкой некоторых данных, если корреляция между исходными расстояниями и копенетическими расстояниями высока.

Это использование cor(dist,cophenetic(hclust(dist)))в качестве метрики выбора связи упоминается в стр. 38 этогоvegan виньетки .

Смотрите пример кода ниже:

# Data
d0=dist(USArrests)

# Hierarchical Agglomerative Clustering
h1=hclust(d0,method='average')
h2=hclust(d0,method='complete')
h3=hclust(d0,method='ward.D')
h4=hclust(d0,method='single')

# Cophenetic Distances, for each linkage
c1=cophenetic(h1)
c2=cophenetic(h2)
c3=cophenetic(h3)
c4=cophenetic(h4)

# Correlations
cor(d0,c1) # 0.7658983
cor(d0,c2) # 0.7636926
cor(d0,c3) # 0.7553367
cor(d0,c4) # 0.5702505

# Dendograms
par(mfrow=c(2,2))
plot(h1,main='Average Linkage')
plot(h2,main='Complete Linkage')
plot(h3,main='Ward Linkage')
plot(h4,main='Single Linkage')
par(mfrow=c(1,1))

Мы видим, что корреляции для averageи completeочень похожи, и их дендограммы выглядят очень похожими. Корреляция для wardаналогична averageи, completeно дендограмма выглядит довольно иначе. singleсвязь делает свое дело. Наилучшее профессиональное суждение эксперта в данной области или его приоритет по отношению к определенной ссылке в интересующей области, вероятно, должны переопределять числовые выходные данные cor().

kakarot
источник