Я использовал статистику GAP для оценки k кластеров в R. Однако я не уверен, правильно ли я ее интерпретирую.
Из приведенного выше графика я предполагаю, что я должен использовать 3 кластера.
Из второго сюжета я должен выбрать 6 кластеров. Это правильная интерпретация статистики GAP?
Буду благодарен за любое объяснение.
clustering
peterpeter
источник
источник
clusGap
на основе globalmax, я не знал, как реализовать maxSE.Ответы:
Однако во многих реальных наборах данных кластеры не так четко определены, и мы хотим иметь возможность сбалансировать максимизацию статистики разрыва с экономией модели. Показательный пример: первое изображение ОП. Если мы максимизируя разрыв статистики в одиночку , то мы должны выбрать модель с 30 (или даже больше!) Кластеров. Если предположить, что этот график будет продолжать расти, результаты, конечно, будут менее полезными. Таким образом, Тибширани предлагает метод 1-стандартной ошибки :
Что неофициально определяет точку, в которой скорость роста статистики разрыва начинает «замедляться».
Итак, в первом изображении OP, если мы берем красные полосы ошибок как стандартную ошибку, то 3 - это наименьшее , удовлетворяющее этому критерию:К
Однако для второго изображения OP вы увидите, что статистика разрыва сразу уменьшается при . Итак, первыйk > 1 К 1
clusGap
firstSEmax
Источник: Роберт Тибширани, Гюнтер Вальтер и Тревор Хасти (2001). Оценка количества кластеров в наборе данных с помощью статистики разрыва.
источник