Есть ли способ определить, какие особенности / переменные набора данных являются наиболее важными / доминирующими в кластерном решении k-средних?
machine-learning
clustering
k-means
importance
user1624577
источник
источник
Ответы:
Один из способов количественно оценить полезность каждой функции (= переменная = размерность) из книги Бернс, Роберт П. и Ричард Бернс. Методы бизнес-исследований и статистика с использованием SPSS. Sage, 2008. ( зеркало ), полезность определяется дискриминационной способностью функций отличать кластеры.
Другим способом было бы удалить конкретную функцию и посмотреть, как это влияет на внутренние показатели качества . В отличие от первого решения, вам придется переделывать кластеризацию для каждой функции (или набора функций), которую вы хотите проанализировать.
Справка:
источник
Я могу думать о двух других возможностях, которые больше фокусируются на том, какие переменные важны для каких кластеров.
Многоклассовая классификация. Рассмотрим объекты, которые принадлежат членам кластера x одного и того же класса (например, класса 1), и объекты, которые принадлежат другим членам кластера второго класса (например, класса 2). Обучите классификатор, чтобы предсказать членство в классе (например, класс 1 против класса 2). Переменные коэффициенты классификатора могут служить для оценки важности каждой переменной в кластеризованных объектах для кластера x . Повторите этот подход для всех других кластеров.
Сходство внутрикластерных переменных. Для каждой переменной вычислите среднее сходство каждого объекта с его центроидом. Переменная, которая имеет высокое сходство между центроидом и его объектами, вероятно, более важна для процесса кластеризации, чем переменная, которая имеет низкое сходство. Конечно, величина подобия относительна, но теперь переменные можно ранжировать по степени, в которой они помогают кластеризовать объекты в каждом кластере.
источник
Вот очень простой метод. Обратите внимание, что евклидово расстояние между двумя кластерными центрами представляет собой сумму квадратов разности между отдельными элементами. Затем мы можем просто использовать квадратную разницу в качестве веса для каждой функции.
источник