Кластеризационные формализации, отличные от K-средних для разделяемых данных

11

Данные реального мира иногда имеют естественное количество кластеров (попытка сгруппировать их в число кластеров, меньших, чем какое-либо волшебство k, приведет к значительному увеличению стоимости кластеризации). Сегодня я посетил лекцию доктора Адама Мейерсона, и он назвал этот тип данных «разделяемыми данными».

Какие еще формализации кластеризации, кроме K-средних, могут быть применимы к алгоритмам кластеризации (аппроксимациям или эвристике), которые используют естественную разделимость данных?

Александр Левчук
источник

Ответы:

11

Одной из последних моделей, пытающихся уловить такое понятие, являются Balcan, Blum и Gupta '09. Они дают алгоритмы для различных целей кластеризации, когда данные удовлетворяют определенному предположению: а именно, что если данные таковы, что любая аппроксимация для цели кластеризации ϵ- близка к оптимальной кластеризации, то они могут дать эффективные алгоритмы для нахождения почти -оптимальная кластеризация, даже для значений c, для которых нахождение c -аппроксимации NP-Hard. Это предположение о том, что данные являются «хорошими» или «разделяемыми». У Липтона есть хороший пост в блоге по этому вопросу.сεсс

αα

Я уверен, что есть более ранняя работа и более ранние соответствующие понятия, но это некоторые недавние теоретические результаты, связанные с вашим вопросом.

Лев Рейзин
источник
8

Помимо работ Островского и др. И работы Артура и Васильвицкого о поведении k-средних, существует ряд теоретических работ по евклидовым k-медианам и k-средним, приводящих к «линейным» алгоритмам времени для кластеризации при эти формулировки. Что интересно в этих последних работах, так это то, что они используют отделимость в качестве инструмента анализа, но не требуют этого в данных.

Суреш Венкат
источник