Иерархическая кластеризация может быть представлена дендрограммой. Вырезание дендрограммы на определенном уровне дает набор кластеров. Резка на другом уровне дает другой набор кластеров. Как бы вы выбрали, где вырезать дендрограмму? Есть ли что-то, что мы могли бы считать оптимальной точкой? Если я посмотрю на дендрограмму во времени, когда она меняется, я должен разрезать в той же точке?
clustering
dendrogram
Eduardas
источник
источник
hopack
(и другие), которые могут оценить количество кластеров, но это не отвечает на ваш вопрос.pvclust
пакете дляR
есть функции, которые выдают загрузочные p-значения для кластеров дендрограмм, что позволяет вам идентифицировать группы: is.titech.ac.jp/~shimo/prog/pvclustОтветы:
На этот вопрос нет однозначного ответа, поскольку кластерный анализ по сути является исследовательским подходом; Интерпретация результирующей иерархической структуры зависит от контекста, и часто несколько решений одинаково хороши с теоретической точки зрения.
Несколько подсказок было дано в связанном вопросе: Какие критерии остановки для агломерационной иерархической кластеризации используются на практике? Я обычно использую визуальные критерии, например, графики силуэтов и некоторые числовые критерии, такие как индекс достоверности Данна, гамма Хьюберта, коэффициент G2 / G3 или скорректированный индекс Рэнда. По сути, мы хотим знать, насколько хорошо аппроксимируется исходная матрица расстояний в пространстве кластеров, поэтому также полезна мера копенетической корреляции . Я также использую k-средства с несколькими начальными значениями и статистикой разрыва ( зеркалом ), чтобы определить количество кластеров, минимизирующих SS. Согласие с иерархической кластеризацией Уорда дает представление о стабильности кластерного решения (вы можете использовать
matchClasses()
в пакете e1071 для этого).Вы найдете полезные ресурсы в CRAN Task View Cluster , включая pvclust , fpc , clv и другие. Также стоит попробовать пакет clValid ( описанный в журнале статистического программного обеспечения ).
Теперь, если ваши кластеры меняются со временем, это немного сложнее; почему выбирают первое кластерное решение, а не другое? Ожидаете ли вы, что некоторые люди переходят из одного кластера в другой в результате основного процесса, развивающегося со временем?
Есть некоторые меры, которые пытаются сопоставить кластеры, которые имеют максимальное абсолютное или относительное перекрытие, как было предложено вам в предыдущем вопросе. Посмотрите на Сравнение кластеров - обзор от Вагнера и Вагнера.
источник
На самом деле нет ответа. Это где-то между 1 и N.
Тем не менее, вы можете думать об этом с точки зрения прибыли.
Например, в маркетинге используется сегментация, которая очень похожа на кластеризацию.
Сообщение (скажем, реклама или письмо), предназначенное для каждого человека, будет иметь самый высокий уровень ответа. Общее сообщение, адаптированное к среднему значению, будет иметь самый низкий уровень ответа. Скажем, три сообщения, предназначенные для трех сегментов, будут где-то посередине. Это сторона дохода.
Сообщение, предназначенное для каждого человека, будет иметь самую высокую стоимость. Общее сообщение с учетом среднего будет иметь самую низкую стоимость. Три сообщения, предназначенные для трех сегментов, будут где-то посередине.
Скажем, оплата автора за написание собственного сообщения стоит 1000, два - 2000 и так далее.
Скажем, используя одно сообщение, ваш доход составит 5000. Если вы разделили своих клиентов на 2 сегмента и написали индивидуальные сообщения для каждого сегмента, ваш ответ будет выше. Скажем, выручка составляет 7500. С тремя сегментами, немного более высоким уровнем отклика, а ваши доходы - 9000. Еще один сегмент, и вы на 9500.
Чтобы максимизировать прибыль, продолжайте сегментирование до тех пор, пока предельный доход от сегментирования не будет равен предельным издержкам сегментирования. В этом примере вы будете использовать три сегмента для максимизации прибыли.
источник
Возможно, одним из самых простых методов было бы графическое представление, в котором ось X - это количество групп, а ось Y - любая метрика оценки как расстояние или сходство. На этом графике вы обычно можете наблюдать две дифференцированные области, являющиеся значением оси X в «колене» линии «оптимальным» числом кластеров.
Есть также некоторые статистические данные, которые могут помочь в выполнении этой задачи: критерии Губерта гамма, псевдо-t2, псевдо-F или кубическая кластеризация (CCC) и другие.
источник
Также есть «Clustergram: визуализация и диагностика для кластерного анализа» (с R-кодом)
Не совсем ответ, но еще одна интересная идея для панели инструментов.
источник
В иерархической кластеризации количество выходных разделов - это не только горизонтальные срезы, но и не горизонтальные срезы, которые определяют окончательную кластеризацию. Таким образом, это может рассматриваться как третий критерий, кроме 1. метрики расстояния и 2. критерия сцепления . http://en.wikipedia.org/wiki/Hierarchical_clustering
Упомянутый вами критерий - это третий тип, который является своего рода ограничением оптимизации для набора разделов в иерархии. Это формально представлено в этой статье и приведены примеры сегментации!
http://www.esiee.fr/~kiranr/ClimbingECCV2012_Preprint.pdf
источник
Как говорилось в других ответах, это определенно субъективно и зависит от того, какую гранулярность вы пытаетесь изучить. Для общего подхода я сократил этот, чтобы дать мне 2 кластера и 1 выброс. Затем я бы сосредоточился на двух кластерах, чтобы увидеть, было ли между ними что-то существенное.
источник