У меня есть набор данных с 16 переменными, и после кластеризации по kmeans я хочу построить две группы.
Какие графики вы предлагаете визуально представить двум кластерам?
У меня есть набор данных с 16 переменными, и после кластеризации по kmeans я хочу построить две группы.
Какие графики вы предлагаете визуально представить двум кластерам?
Там нет единой правильной визуализации. Это зависит от того, какой аспект кластеров вы хотите увидеть или подчеркнуть.
Хотите увидеть, как каждая переменная способствует? Рассмотрим график параллельных координат.
Хотите увидеть, как кластеры распределены по основным компонентам? Рассмотрим биплот (в 2D или 3D):
Вы хотите искать кластерные выбросы по всем измерениям. Рассмотрим диаграмму рассеяния расстояния от центра кластера 1 против расстояния от центра кластера 2. (По определению K означает, что каждый кластер будет падать с одной стороны от диагональной линии.)
Хотите увидеть парные отношения по сравнению с кластеризацией. Рассмотрим матрицу рассеяния, раскрашенную кластером.
Хотите увидеть сводный вид расстояний кластеров? Рассмотрите сравнение любой визуализации распределения, такой как гистограммы, графики скрипки или коробочные графики.
Многомерные дисплеи сложны, особенно с таким количеством переменных. У меня есть два предложения.
Если есть определенные переменные, которые особенно важны для кластеризации или по существу интересны, вы можете использовать матрицу диаграммы рассеяния и отобразить двумерные отношения между интересующими вас переменными. Вы могли бы даже использовать расширенные диаграммы рассеяния (например, использовать формы с размером, пропорциональным третьей переменной), чтобы добавить больше размерности
В качестве альтернативы, вы можете использовать пружинный график, который был разработан для отображения данных больших размеров, которые показывают кластеризацию. Обратите внимание, я никогда не видел этого в литературе, с которой я знаком, но я думаю, что это очень интересный способ отображения многомерных данных. Следующая цитата - то, где заговор был первоначально предложен.
Hoffman, PE et al. (1997) Анализ ДНК визуальных и аналитических данных. В трудах IEEE Визуализация. Phoenix, AZ, pp. 437-441.
И вот где я изначально нашел упоминание об этом.
Теперь, честное предупреждение, я не смог найти реализацию заговоров за пределами Orange. Опять же, я не искал так сильно!
Я предполагаю, что ваши данные являются реальными и непрерывными, если они дискретные или не интервальные, и так далее, и так далее, я не думаю, что эти графики были бы полезны.
Вы можете использовать функцию fviz_cluster из factoextra pacakge в R. Она покажет график разброса ваших данных, и кластером будут различные цвета точек.
Насколько я понимаю, эта функция выполняет PCA, а затем выбирает два верхних ПК и наносит их на 2D.
Любые предложения / улучшения в моем ответе приветствуются.
источник