обозначает евклидово расстояние между входной точкой и центральной точкой . Каждая точка присваивается ближайшему центру кластера, группируя вершины в различных кластеров.
Эта проблема известна как (дискретная) проблема кластеризации и является -hard. С помощью задачи -комплектного доминирующего множества можно показать, что если для задачи с существует алгоритм -approximation, то .NP NP ρ ρ < 2 P = NP
Оптимальный алгоритм приближения очень прост и интуитивно понятен. Сначала произвольно выбирают точку и помещают ее в множество центров кластеров. Затем выбирают следующий кластерный центр так, чтобы он был как можно дальше от всех других кластерных центров. Так что пока , мы неоднократно находим точку , для которых расстояние максимизируется и добавить его в . Однажды мы сделали.p ∈ P C
Нетрудно видеть, что оптимальный жадный алгоритм выполняется за времени. Возникает вопрос: можем ли мы достичь времени? Насколько лучше мы можем сделать?o ( n k )