Я использую R для K-средних кластеров. Я использую 14 переменных для запуска K-средних
- Что такое симпатичный способ представить результаты К-средних?
- Существуют ли какие-либо реализации?
- Сложно ли иметь 14 переменных, чтобы представить результаты?
Я нашел нечто под названием GGcluster, которое выглядит круто, но оно все еще находится в разработке. Я также прочитал кое-что о картографировании Саммона, но не очень хорошо понял. Будет ли это хорошим вариантом?
Ответы:
Я бы использовал для этого силуэтный график, потому что маловероятно, что вы получите много полезной информации из парных графиков, когда число измерений равно 14.
Такой подход весьма цитировали и хорошо известны (см здесь для объяснения).
Rousseeuw, PJ (1987) Силуэты: графическая помощь для интерпретации и проверки кластерного анализа . J. Comput. Appl. Математика , 20 , 53-65.
источник
Вот пример, который может вам помочь:
Основываясь на последнем графике, вы можете решить, какие из ваших начальных переменных построить. Может быть, 14 переменных огромны, поэтому вы можете попробовать анализ основных компонентов (PCA) раньше, а затем использовать первые два или три компонента из PCA для выполнения кластерного анализа.
источник
pairs
функции.Самый простой способ, которым я знаю, это сделать следующее:
Таким образом, вы можете нарисовать точки каждого кластера, используя разные цвета и их центроиды.
источник