Каково допустимое значение критерия Калинского и Харабаса (СН)?

25

Я провел анализ данных, пытаясь сгруппировать продольные данные, используя R и пакет kml . Мои данные содержат около 400 отдельных траекторий (как это называется в статье). Вы можете увидеть мои результаты на следующем рисунке:

введите описание изображения здесь

После прочтения главы 2.2 «Выбор оптимального числа кластеров» в соответствующей статье я не получил никаких ответов. Я бы предпочел иметь 3 кластера, но результат будет все еще в порядке с CH 80. На самом деле я даже не знаю, что представляет собой значение CH.

Итак, мой вопрос, каково приемлемое значение критерия Калинского и Харабаса (СН)?

greg121
источник
ваши образы кластерного решения взяты из SPSS? Можно ли посчитать этот критерий CH в SPSS? Благодарность! :) б
бербелеин
Добро пожаловать на сайт, @berbelein. Это не ответ на вопрос ОП. Пожалуйста, используйте только поле «Ваш ответ», чтобы предоставить ответы. Если у вас есть свой вопрос, щелкните здесь, чтобы [ASK QUESTION]задать его, и мы поможем вам должным образом. Поскольку вы новичок здесь, вы можете принять участие в нашем туре , который содержит информацию для новых пользователей.
gung - Восстановить Монику
@berbelein изображения взяты из R.
greg121

Ответы:

40

Есть несколько вещей, о которых нужно знать.

  • Как и большинство внутренних критериев кластеризации , Calinski-Harabasz является эвристическим устройством. Надлежащим способом его использования является сравнение кластерных решений, полученных на одних и тех же данных, - решений, которые различаются либо количеством кластеров, либо используемым методом кластеризации.

  • Нет «приемлемого» порогового значения. Вы просто сравниваете значения CH на глаз. Чем выше значение, тем «лучше» решение. Если на линейном графике значений CH появляется, что одно решение дает пик или, по крайней мере, резкий отвод, выберите его. Если, наоборот, линия плавная - горизонтальная или восходящая или нисходящая, то нет никаких причин предпочитать одно решение другим.

  • Критерий CH основан на идеологии ANOVA. Следовательно, это подразумевает, что кластерные объекты лежат в евклидовом пространстве масштабных (не порядковых, двоичных или номинальных) переменных. Если кластеризованные данные были не объектами X переменных, а матрицей различий между объектами, то мерой различий должно быть (квадрат) евклидово расстояние (или, что хуже, другое метрическое расстояние, приближающееся к евклидову расстоянию по свойствам).

  • 1

Давайте посмотрим на пример. Ниже приведена диаграмма рассеяния данных, которые были сгенерированы в виде 5 нормально распределенных кластеров, которые расположены довольно близко друг к другу.

введите описание изображения здесь

Эти данные были сгруппированы методом иерархической средней связи, и все кластерные решения (членство в кластере) от 15-кластерного до 2-кластерного решения были сохранены. Затем были применены два критерия кластеризации для сравнения решений и выбора «лучшего», если таковой имеется.

введите описание изображения здесь

Участок для Calinski-Harabasz находится слева. Мы видим, что - в этом примере - CH явно указывает 5-кластерное решение (помеченное CLU5_1) как лучшее. График для другого критерия кластеризации, C-Index (который не основан на идеологии ANOVA и является более универсальным в своем применении, чем CH), находится справа. Для индекса C более низкое значение указывает на «лучшее» решение. Как видно из сюжета, 15-кластерное решение формально является лучшим. Но помните, что с критериями кластеризации грубая топография важнее при принятии решения, чем сама величина. Обратите внимание, что в 5-кластерном решении есть колено; 5-кластерное решение все еще относительно хорошо, в то время как 4- или 3-кластерное решение ухудшается скачками. Поскольку обычно мы хотим получить «лучшее решение с меньшим количеством кластеров», выбор 5-кластерного решения представляется разумным и при тестировании C-Index.

PS В этом посте также поднимается вопрос о том, следует ли нам больше доверять фактическому максимуму (или минимуму) критерия кластеризации или, скорее, ландшафту графика его значений.


1

Обзор внутренних критериев кластеризации и как их использовать .

ttnphns
источник
Читатель может также захотеть увидеть вопрос stats.stackexchange.com/q/242360/3277 .
ttnphns
Я внедрил для SPSS ряд самых популярных критериев проверки кластеризации, - пожалуйста, посетите мою веб-страницу, сборник «Критерии кластеризации».
ttnphns