Я изучал алгоритмы кластеризации данных (обучение без учителя): EM и k-means. Я продолжаю читать следующее:
К-среднее является вариантом EM, с предположениями, что кластеры являются сферическими.
Может кто-нибудь объяснить вышеприведенное предложение? Я не понимаю, что означает сферическое, и как связаны kmeans и EM, поскольку одно выполняет вероятностное назначение, а другое - детерминистическим образом.
Кроме того, в какой ситуации лучше использовать кластеризацию k-средних? или использовать EM кластеризацию?
Ответы:
К означает
ЭМ
источник
Не существует «алгоритма k-средних». Есть алгоритм MacQueens для k-средних, алгоритм Ллойда / Форги для k-средних, метод Хартиган-Вонга, ...
Также не существует "ЭМ-алгоритма". Это общая схема многократного ожидания вероятностей и последующего максимизации модели. Наиболее популярный вариант EM также известен как «моделирование гауссовой смеси» (GMM), где модели представляют собой многомерное распределение Гаусса.
Можно считать, что алгоритм Ллойда состоит из двух шагов:
... повторение этих двух шагов, как это сделал Ллойд, фактически делает это примером общей схемы EM. От GMM отличается тем, что:
источник
Вот пример, если бы я делал это в mplus, что могло бы быть полезным и дополнить более полные ответы:
Скажем, у меня есть 3 непрерывные переменные, и я хочу определить кластеры на их основе. Я бы определил смешанную модель (более конкретно в данном случае модель скрытого профиля), предполагая условную независимость (наблюдаемые переменные являются независимыми, учитывая членство в кластере) как:
Я бы запускал эту модель несколько раз, каждый раз задавая разное количество кластеров, и выбирал решение, которое мне больше всего нравится (для этого сама по себе обширная тема).
Чтобы потом запустить k-means, я бы указал следующую модель:
Таким образом, членство в классе основывается только на расстоянии до средних значений наблюдаемых переменных. Как указано в других ответах, отклонения не имеют к этому никакого отношения.
Хорошая особенность этого в mplus - это то, что они являются вложенными моделями, и поэтому вы можете непосредственно проверить, приводят ли ограничения к худшему соответствию или нет, в дополнение к возможности сравнить расхождения в классификации между двумя методами. Кстати, обе эти модели могут быть оценены с использованием EM-алгоритма, так что разница действительно больше в модели.
Если вы думаете в трехмерном пространстве, 3 средства составляют точку ... и отклонения трех осей эллипсоида, проходящего через эту точку. Если все три отклонения одинаковы, вы получите сферу.
источник