Каковы наилучшие (рекомендуемые) этапы предварительной обработки перед выполнением k-средних?
clustering
normalization
k-means
pedrosaurio
источник
источник
Ответы:
Если ваши переменные имеют несопоставимые единицы (например, рост в сантиметрах и вес в килограммах), то вам, конечно, следует стандартизировать переменные. Даже если переменные имеют одинаковые единицы, но демонстрируют совершенно разные отклонения, все равно рекомендуется стандартизировать до K-средних. Видите ли, кластеризация K-средних является «изотропной» во всех направлениях пространства и, следовательно, имеет тенденцию создавать более или менее круглые (а не вытянутые) кластеры. В этой ситуации оставить неравные отклонения равносильно тому, чтобы придать больший вес переменным с меньшей дисперсией, поэтому кластеры будут иметь тенденцию разделяться вдоль переменных с большей дисперсией.
Вот некоторые общие соображения по поводу вопроса стандартизации функций в кластерном или другом многомерном анализе.
источник
Зависит от ваших данных, я думаю. Если вы хотите, чтобы тренды в ваших данных группировались вместе, независимо от их величины, вам следует сосредоточиться. например. скажем, у вас есть какой-то профиль экспрессии генов, и вы хотите видеть тенденции в экспрессии генов, и тогда, без значительного центрирования, ваши гены с низкой экспрессией будут группироваться вместе и удаляться от генов с высокой экспрессией, независимо от тенденций. Центрирование объединяет гены (как с высокой, так и с низкой экспрессией) с одинаковыми паттернами экспрессии.
источник