Я знаю, что этот вопрос недостаточно четко определен, но некоторые кластеры имеют тенденцию быть эллиптическими или лежать в пространстве меньшего размера, в то время как другие имеют нелинейные формы (в 2D или 3D-примерах).
Есть ли мера нелинейности (или «формы») кластеров?
Обратите внимание, что в двумерном и трехмерном пространстве не является проблемой увидеть форму любого кластера, но в пространствах более высокого измерения трудно сказать что-то о форме. В частности, есть ли какие-либо показатели того, насколько выпуклый кластер?
Меня вдохновили на этот вопрос многие другие вопросы о кластерах, когда люди говорят о кластерах, но никто не может их увидеть (в пространствах более высокого измерения). Кроме того, я знаю, что есть некоторые меры нелинейности для 2D кривых.
источник
Ответы:
Мне нравятся модели Gaussian Mixture (GMM's).
Одна из их особенностей заключается в том, что в пробит-области они действуют как кусочные интерполяторы. Одним из следствий этого является то, что они могут действовать как основа замены, универсальный аппроксиматор. Это означает, что для негауссовых распределений, таких как логнормальные, вейбулловы или более сумасшедшие неаналитические, при условии соблюдения некоторых критериев - GMM может аппроксимировать распределение.
Поэтому, если вам известны параметры оптимального приближения AICc или BIC с использованием GMM, вы можете проецировать их на меньшие размеры. Вы можете повернуть его и посмотреть на главные оси компонентов аппроксимирующего GMM.
Следствием этого стал бы информативный и визуально доступный способ просмотра наиболее важных частей данных более высокого измерения с использованием нашего визуального восприятия в режиме трехмерного просмотра.
РЕДАКТИРОВАТЬ: (конечно, Whuber)
Есть несколько способов взглянуть на форму.
РЕДАКТИРОВАТЬ:
Что означает форма? Они говорят, что специфика - это душа всего хорошего общения. Что вы имеете в виду под "мерой"?
Идеи о том, что это может означать:
Большинство из "нескольких способов" являются некоторыми вариациями на них.
источник
Это может быть довольно упрощенно, но вы можете получить некоторое представление, выполнив анализ собственных значений для каждого из ваших кластеров.
Я бы попытался взять все точки, назначенные кластеру, и сопоставить их с многомерным гауссовским. Затем вы можете вычислить собственные значения подогнанной ковариационной матрицы и построить их. Есть много способов сделать это; пожалуй, самый известный и широко используемый называется анализ главных компонентов или PCA .
Получив собственные значения (также называемые спектром), вы можете проверить их относительные размеры, чтобы определить, насколько «растянут» кластер в определенных измерениях. Чем менее однородный спектр, тем более «сигарообразный» кластер и чем более однородный спектр, тем более сферический кластер. Вы могли бы даже определить какую-то метрику для указания, насколько неоднородны собственные значения (спектральная энтропия?); см. http://en.wikipedia.org/wiki/Spectral_flatness .
Дополнительным преимуществом является то, что вы можете изучить основные компоненты (собственные векторы, связанные с большими собственными значениями), чтобы увидеть, «куда» указывают «сигарообразные» кластеры в вашем пространстве данных.
Естественно, это грубое приближение для произвольного кластера, поскольку он моделирует только точки в кластере как один эллипсоид. Но, как я уже сказал, это может дать вам некоторое представление.
источник
Алгоритмы корреляционной кластеризации, такие как 4C, ERiC или LMCLUS, обычно рассматривают кластеры как линейные многообразия. Т.е. k-мерные гиперплоскости в d-мерном пространстве. Что ж, для 4C и ERiC только локально линейно, поэтому они на самом деле могут быть невыпуклыми. Но они все еще пытаются обнаружить кластеры с уменьшенной локальной размерностью.
Поиск кластеров произвольной формы в многомерных данных является довольно сложной задачей. В частности, из-за проклятия размерности, которое позволяет пространству поиска взрываться и в то же время также требует, чтобы у вас были намного большие входные данные, если вы все еще хотите значительных результатов. Слишком много алгоритмов не обращают внимания на то, является ли то, что они находят, все еще значимым или может быть случайным.
Так что на самом деле я считаю, что есть и другие проблемы, которые необходимо решить, прежде чем думать о выпуклости невыпуклости сложных кластеров в многомерном пространстве.
Также взгляните на сложность вычисления выпуклой оболочки в более высоких измерениях ...
Кроме того, у вас есть реальный вариант использования для этого, помимо любопытства?
источник
Если ваша размерность не намного больше, чем 2 или 3, то может оказаться возможным проецировать интересующий кластер в 2D-пространство несколько раз и визуализировать результаты или использовать 2D-измерение нелинейности. Я думал об этом из-за метода случайных проекций http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf .
Случайные проекции могут использоваться, чтобы уменьшить размерность, чтобы построить индекс. Теория состоит в том, что если две точки близки в D измерениях, и вы берете случайную проекцию в d измерениях с помощью d
Для конкретности вы можете подумать о проецировании шара на плоскую поверхность. Неважно, как вы это спроектируете, Нью-Йорк и Нью-Джерси будут вместе, но лишь изредка вы будете толкать Нью-Йорк и Лондон вместе.
Я не знаю, может ли это помочь вам строго, но это может быть быстрый способ визуализации кластеров.
источник