Разница между стандартным и сферическим алгоритмами k-средних

28

Я хотел бы понять, в чем заключается основная разница между стандартными и сферическими алгоритмами кластеризации k-средних.

На каждом шаге k-means вычисляет расстояния между векторами элементов и центроидами кластера и переназначает документ этому кластеру, центроид которого является ближайшим. Затем все центроиды пересчитываются.

В сферических k-средних все векторы нормированы, а мера расстояния - косинусное различие.

Это все или есть что-то еще?

user1315305
источник

Ответы:

23

Вопрос в том:

В чем разница между классическим k-средним и сферическим k-средним?

Классический K-означает:

В классических k-средних мы стремимся минимизировать евклидово расстояние между центром кластера и членами кластера. Интуиция за этим заключается в том, что радиальное расстояние от центра кластера до местоположения элемента должно быть «одинаковым» или «быть одинаковым» для всех элементов этого кластера.

Алгоритм:

  • Установить количество кластеров (иначе количество кластеров)
  • Инициализация путем случайного присвоения точек в пространстве индексам кластера
  • Повторите, пока не сходятся
    • Для каждой точки найдите ближайший кластер и назначьте точку кластеру
    • Для каждого кластера найдите среднее число членов и среднее значение центра обновлений.
    • Ошибка - норма расстояния кластеров

Сферическое К-средство:

В сферических k-средних идея состоит в том, чтобы установить центр каждого кластера таким образом, чтобы он делал как равномерный, так и минимальный угол между компонентами. Интуиция подобна взгляду на звезды - точки должны иметь одинаковое расстояние друг от друга. Этот интервал проще измерить как «косинусное сходство», но это означает, что нет никаких галактик «Млечного пути», образующих большие яркие полосы по небу данных. (Да, я пытаюсь поговорить с бабушкой в этой части описания.)

Более техническая версия:

Подумайте о векторах, о вещах, которые вы изображаете в виде стрелок с ориентацией и фиксированной длиной. Он может быть переведен куда угодно и быть одним и тем же вектором. ссылка

введите описание изображения здесь

Ориентация точки в пространстве (ее угол от опорной линии) может быть вычислена с использованием линейной алгебры, в частности, скалярное произведения.

Если мы переместим все данные так, чтобы их хвост находился в одной и той же точке, мы можем сравнить «векторы» по их углу и сгруппировать похожие в один кластер.

введите описание изображения здесь

Для ясности длины векторов масштабируются, чтобы их было легче сравнивать.

введите описание изображения здесь

Вы можете думать об этом как о созвездии. Звезды в одном скоплении в некотором смысле близки друг к другу. Это мои глазные яблоки считаются созвездиями.

введите описание изображения здесь

Ценность общего подхода заключается в том, что он позволяет нам создавать векторы, которые в противном случае не имеют геометрической размерности, например, в методе tf-idf, где векторы представляют собой частоты слов в документах. Два добавленных слова "и" не равны "the". Слова не являются непрерывными и не числовыми. Они являются нефизическими в геометрическом смысле, но мы можем придумать их геометрически, а затем использовать геометрические методы для их обработки. Сферические k-средства могут быть использованы для кластеризации на основе слов.

[Икс1Y1Икс2Y2гроUп0-0.8-0,2013-0,7316В-0.80,1-0,95240,3639A0.20,30,2061-0,1434С0.80,10,47870,153В-0.70.2-0,72760,3825A0.90.90,7480,6793С]

Некоторые моменты:

  • Они проецируются в единичную сферу для учета различий в длине документа.

Давайте проработаем реальный процесс и посмотрим, насколько (плохо) было мое «зрелище».

Процедура такова:

  1. (подразумевается в задаче) соединить векторы хвосты в начале координат
  2. проект на единичную сферу (для учета различий в длине документа)
  3. использовать кластеризацию, чтобы минимизировать " косинусное различие" »

Jзнак равноΣяd(Икся,пс(я))

d(Икс,п)знак равно1-соs(Икс,п)знак равноИкс,п| |Икс| || |п| |

(скоро появятся новые правки)

Ссылки:

  1. http://epub.wu.ac.at/4000/1/paper.pdf
  2. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
  3. http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
  4. https://www.jstatsoft.org/article/view/v050i10
  5. http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
  6. https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf
EngrStudent - Восстановить Монику
источник
В текстовых файлах я думаю, что функция «diff», которая выравнивает символы или указывает изменения с весами, может быть полезной предварительной обработкой «близких» текстов для улучшения осмысленной кластеризации
EngrStudent - Восстановление Monica
Я получаю «Доступ запрещен» по ссылке в # 1 ( sci.utah.edu/~weiliu/research/clustering_fmri/… )
Дэвид Дория
@ Дэвид - я тоже. Всегда в движении ... Интернет? Один момент, пожалуйста.
EngrStudent - Восстановить Монику
1
После некоторых колебаний я решил понизить этот ответ в настоящее время. Это не только слишком «бабушкиное» объяснение, оно неточное. radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that clusterзвучит просто неправильно или тупо. В both uniform and minimal the angle between components«компонентах» это не определено. Я надеюсь, что вы могли бы улучшить потенциально хороший ответ, если бы вы сделали его более строгим и расширенным.
ttnphns