Я рассчитываю на кластеризацию небольшого набора данных (64 наблюдения 4-х интервальных переменных и одной трехфакторной категориальной переменной). Теперь я довольно новичок в кластерном анализе, но я знаю, что был значительный прогресс со времен, когда иерархическая кластеризация или k-средних были единственными доступными вариантами. В частности, кажется, что доступны новые методы кластеризации на основе моделей, которые, как указывает chl , позволяют использовать «индексы соответствия» для определения количества кластеров или классов ».
Однако стандартный пакет R для кластеризации на основе моделей, mclust
очевидно, не подойдет для моделей со смешанными типами данных. fpc
Модель, но имеет неприятности подгонки модели, я подозреваю , что из-за негауссовости непрерывных переменных. Должен ли я продолжить модельный подход? Я хотел бы продолжать использовать R, если это возможно. На мой взгляд, у меня есть несколько вариантов:
- Преобразуйте трехуровневую категориальную переменную в две фиктивные переменные и используйте
mclust
. Я не уверен, что это повлияет на результаты, но если нет, то это мой предпочтительный вариант. - Как-то преобразуйте непрерывные переменные и используйте
fpc
пакет. - Используйте другой пакет R, с которым я еще не сталкивался.
- Создайте матрицу различий, используя меру Гауэра, и используйте традиционные иерархические или кластерные методы перемещения.
Есть ли какие-нибудь предложения у сайта stats.se?
Ответы:
Я бы порекомендовал вам использовать Gower с последующей иерархической кластеризацией. Иерархическая кластеризация остается наиболее гибким и подходящим методом в случае небольшого количества объектов (например, 64). Если ваша категориальная переменная является номинальной, Gower будет внутренне перекодировать ее в фиктивные переменные и основывать на них сходство базовых кубиков (как части Gower). Если ваша переменная имеет порядковый номер, вы должны знать, что последняя версия коэффициента Гауэра также может ее использовать.
Что касается многочисленных индексов для определения «лучшего» количества кластеров, то большинство из них существуют независимо от того или иного алгоритма кластеризации. Вам не нужно искать кластерные пакеты, которые обязательно включают такие индексы, поскольку последние могут существовать в виде отдельных пакетов. После кластерного пакета вы оставляете ряд кластерных решений, а затем сравниваете их по индексу из другого пакета.
источник