Процедура выбора eps и minPts для DBSCAN

14

DBSCAN - наиболее цитируемый алгоритм кластеризации, согласно некоторым литературным источникам, и он может найти кластеры произвольной формы на основе плотности. У него есть два параметра eps (как радиус окрестности) и minPts (как минимальные соседи, рассматривающие точку как точку ядра), которые, я считаю, сильно зависят от них.

Есть ли какой-либо рутинный или обычно используемый метод для выбора этих параметров?

Mehraban
источник
1
Обратите внимание, что есть похожий вопрос о переполнении стека : Выбор eps и minpts для DBSCAN (R)?
gung - Восстановить Монику

Ответы:

11

Существует множество публикаций, предлагающих методы выбора этих параметров.

Наиболее заметным является OPTICS, вариант DBSCAN, который устраняет параметр epsilon; он дает иерархический результат, который можно грубо рассматривать как «запуск DBSCAN со всеми возможными эпсилонами».

Для minPts я предлагаю не полагаться на автоматический метод, а на знание своей предметной области .

Хороший алгоритм кластеризации имеет параметры, которые позволяют настраивать его в соответствии с вашими потребностями.

Параметр, который вы пропустили - это функция расстояния. Первое, что нужно сделать для DBSCAN, - это найти хорошую функцию расстояния для вашего приложения . Не надейтесь, что евклидово расстояние является лучшим для любого применения!

ВЫЙТИ - Anony-Mousse
источник
Хотя пользователь может выбрать функцию расстояния, я сомневаюсь, что это параметр.
Мехрабан
1
Конечно, это. Это такой же параметр, как и функция ядра для любого другого метода, основанного на ядре (вы можете на самом деле тривиализировать DBSCAN таким же образом), и, по моему опыту, другие расстояния, такие как Канберра или Кларк, могут значительно улучшить результаты .
ВЫЙТИ - Anony-Mousse
Я не недооцениваю влияние функции расстояния на кластеризацию, но я думаю, что она является какой-то общей, не специфичной для dbscan или любого другого алгоритма кластеризации; в то время как eps и minPts явно являются параметрами dbscan.
Мехрабан
1
Существует также множество алгоритмов, не основанных на расстоянии. И когда вы считаете, что minPts такие же, как, например, kдля классификации ближайших соседей, вы можете сказать то же самое для параметра minPts. Я предполагаю, что основное различие заключается в том, что для расстояния существует «часто» разумное значение по умолчанию: евклидово расстояние; тогда как для minPts значение будет зависеть от данных.
Выйти - Anony-Mousse
1
ОПТИКА сама по себе не даст вам разделов, а будет кластерный порядок. Чтобы получить разделы, используйте извлечение xi, описанное в документе OPTICS. Посмотрите каждый вариант бумаги, чтобы понять различия.
ВЫЙТИ - Anony-Mousse