Как я должен интерпретировать статистику GAP?

10

Я использовал статистику GAP для оценки k кластеров в R. Однако я не уверен, правильно ли я ее интерпретирую. введите описание изображения здесь

Из приведенного выше графика я предполагаю, что я должен использовать 3 кластера.

введите описание изображения здесь

Из второго сюжета я должен выбрать 6 кластеров. Это правильная интерпретация статистики GAP?

Буду благодарен за любое объяснение.

peterpeter
источник
Два вопроса - Что показывает первый сюжет? Это статистика GAP для тех же данных? Почему это выглядит иначе, чем второй (который я вижу, GAP). Какие функции R вы использовали? Второй вопрос: использовали ли вы правило «1-стандартная ошибка», чтобы выбрать 6 для второго графика?
Deathkill14
Таким образом, существует два разных подхода к кластеризации. Первый, основанный на временных рядах - продажи за 26 недель, и я кластеризовал данные на основе динамического искажения времени. Второй подход заключался в параметрах кривой роста кластеров, также основанных на динамической временной деформации. Я использовал clusGapна основе globalmax, я не знал, как реализовать maxSE.
peterpeter

Ответы:

11

kkk=2

Статистика разрыва

Однако во многих реальных наборах данных кластеры не так четко определены, и мы хотим иметь возможность сбалансировать максимизацию статистики разрыва с экономией модели. Показательный пример: первое изображение ОП. Если мы максимизируя разрыв статистики в одиночку , то мы должны выбрать модель с 30 (или даже больше!) Кластеров. Если предположить, что этот график будет продолжать расти, результаты, конечно, будут менее полезными. Таким образом, Тибширани предлагает метод 1-стандартной ошибки :

Выберите размер кластера чтобы он был наименьшим таким, чтобы .k^kGap(k)Gap(k+1)sk+1

Что неофициально определяет точку, в которой скорость роста статистики разрыва начинает «замедляться».

Итак, в первом изображении OP, если мы берем красные полосы ошибок как стандартную ошибку, то 3 - это наименьшее , удовлетворяющее этому критерию:k

Аннотированное изображение 1

Однако для второго изображения OP вы увидите, что статистика разрыва сразу уменьшается при . Итак, первыйk>1k1

kclusGapkfirstSEmaxk=30k=19

Источник: Роберт Тибширани, Гюнтер Вальтер и Тревор Хасти (2001). Оценка количества кластеров в наборе данных с помощью статистики разрыва.

jayelm
источник
1
kk
Спасибо за указание на компромисс между максимизацией статистики разрыва и получением экономии модели
cloudcomputes