Что означает общее ss и между ss в кластеризации k-средних?

10

Я очень новичок в кластерном анализе. Я использую R для кластеризации k-средних и мне интересно, что это за вещи. А что лучше, если их соотношение меньше или больше?

kanbhold
источник

Ответы:

12

Это в основном мера качества классификации K-средних. SS, очевидно, обозначает Sum of Squares, так что это обычная декомпозиция отклонения в отклонении «Между» и отклонения «В пределах». В идеале вы хотите кластеризацию, которая обладает свойствами внутренней когезии и внешнего разделения, то есть отношение BSS / TSS должно приближаться к 1.

Например, в R:

data(iris)
km <- kmeans(iris[,1:4], 3)

дает соотношение BSS / TSS 88,4% (0,884), что указывает на хорошее соответствие. Вы должны быть осторожны, и обычно желательно построить WSS по отношению к номеру кластера, так как это число должно быть указано заранее.

lambda_vu
источник