DBSCAN - наиболее цитируемый алгоритм кластеризации, согласно некоторым литературным источникам, и он может найти кластеры произвольной формы на основе плотности. У него есть два параметра eps (как радиус окрестности) и minPts (как минимальные соседи, рассматривающие точку как точку ядра), которые, я считаю, сильно зависят от них.
Есть ли какой-либо рутинный или обычно используемый метод для выбора этих параметров?
clustering
dbscan
Mehraban
источник
источник
Ответы:
Существует множество публикаций, предлагающих методы выбора этих параметров.
Наиболее заметным является OPTICS, вариант DBSCAN, который устраняет параметр epsilon; он дает иерархический результат, который можно грубо рассматривать как «запуск DBSCAN со всеми возможными эпсилонами».
Для minPts я предлагаю не полагаться на автоматический метод, а на знание своей предметной области .
Хороший алгоритм кластеризации имеет параметры, которые позволяют настраивать его в соответствии с вашими потребностями.
Параметр, который вы пропустили - это функция расстояния. Первое, что нужно сделать для DBSCAN, - это найти хорошую функцию расстояния для вашего приложения . Не надейтесь, что евклидово расстояние является лучшим для любого применения!
источник
k
для классификации ближайших соседей, вы можете сказать то же самое для параметра minPts. Я предполагаю, что основное различие заключается в том, что для расстояния существует «часто» разумное значение по умолчанию: евклидово расстояние; тогда как для minPts значение будет зависеть от данных.