Я провел анализ данных, пытаясь сгруппировать продольные данные, используя R и пакет kml . Мои данные содержат около 400 отдельных траекторий (как это называется в статье). Вы можете увидеть мои результаты на следующем рисунке:
После прочтения главы 2.2 «Выбор оптимального числа кластеров» в соответствующей статье я не получил никаких ответов. Я бы предпочел иметь 3 кластера, но результат будет все еще в порядке с CH 80. На самом деле я даже не знаю, что представляет собой значение CH.
Итак, мой вопрос, каково приемлемое значение критерия Калинского и Харабаса (СН)?
r
clustering
panel-data
greg121
источник
источник
[ASK QUESTION]
задать его, и мы поможем вам должным образом. Поскольку вы новичок здесь, вы можете принять участие в нашем туре , который содержит информацию для новых пользователей.Ответы:
Есть несколько вещей, о которых нужно знать.
Как и большинство внутренних критериев кластеризации , Calinski-Harabasz является эвристическим устройством. Надлежащим способом его использования является сравнение кластерных решений, полученных на одних и тех же данных, - решений, которые различаются либо количеством кластеров, либо используемым методом кластеризации.
Нет «приемлемого» порогового значения. Вы просто сравниваете значения CH на глаз. Чем выше значение, тем «лучше» решение. Если на линейном графике значений CH появляется, что одно решение дает пик или, по крайней мере, резкий отвод, выберите его. Если, наоборот, линия плавная - горизонтальная или восходящая или нисходящая, то нет никаких причин предпочитать одно решение другим.
Критерий CH основан на идеологии ANOVA. Следовательно, это подразумевает, что кластерные объекты лежат в евклидовом пространстве масштабных (не порядковых, двоичных или номинальных) переменных. Если кластеризованные данные были не объектами X переменных, а матрицей различий между объектами, то мерой различий должно быть (квадрат) евклидово расстояние (или, что хуже, другое метрическое расстояние, приближающееся к евклидову расстоянию по свойствам).
Давайте посмотрим на пример. Ниже приведена диаграмма рассеяния данных, которые были сгенерированы в виде 5 нормально распределенных кластеров, которые расположены довольно близко друг к другу.
Эти данные были сгруппированы методом иерархической средней связи, и все кластерные решения (членство в кластере) от 15-кластерного до 2-кластерного решения были сохранены. Затем были применены два критерия кластеризации для сравнения решений и выбора «лучшего», если таковой имеется.
Участок для Calinski-Harabasz находится слева. Мы видим, что - в этом примере - CH явно указывает 5-кластерное решение (помеченное CLU5_1) как лучшее. График для другого критерия кластеризации, C-Index (который не основан на идеологии ANOVA и является более универсальным в своем применении, чем CH), находится справа. Для индекса C более низкое значение указывает на «лучшее» решение. Как видно из сюжета, 15-кластерное решение формально является лучшим. Но помните, что с критериями кластеризации грубая топография важнее при принятии решения, чем сама величина. Обратите внимание, что в 5-кластерном решении есть колено; 5-кластерное решение все еще относительно хорошо, в то время как 4- или 3-кластерное решение ухудшается скачками. Поскольку обычно мы хотим получить «лучшее решение с меньшим количеством кластеров», выбор 5-кластерного решения представляется разумным и при тестировании C-Index.
PS В этом посте также поднимается вопрос о том, следует ли нам больше доверять фактическому максимуму (или минимуму) критерия кластеризации или, скорее, ландшафту графика его значений.
Обзор внутренних критериев кластеризации и как их использовать .
источник