У меня есть некоторые данные о времени между ударами сердца человека. Одним из признаков эктопических (дополнительных) ударов является то, что эти интервалы сгруппированы вокруг трех значений вместо одного. Как я могу получить количественную меру этого?
Я хочу сравнить несколько наборов данных, и эти две гистограммы по 100 бинов являются репрезентативными для всех из них.
Я мог бы сравнить отклонения, но я хочу, чтобы мой алгоритм мог определять наличие одного или трех кластеров в каждом случае, не сравнивая с другими случаями.
Это для обработки в автономном режиме, так что есть много вычислительной мощности, если это необходимо.
clustering
Николаус
источник
источник
Ответы:
Я настоятельно советую против использования K-средств здесь. Результаты для разных значений k не очень хорошо сопоставимы. Метод просто грубая эвристика. Если вы действительно хотите использовать кластеризацию, используйте EM-кластеризацию, поскольку ваши данные, похоже, содержат нормальные распределения. И подтвердите свои результаты!
Вместо этого очевидный подход состоит в том, чтобы попытаться подобрать одну гауссову функцию и (например, используя метод Левенберга-Маркварда) подобрать три гауссовские функции, которые могут быть ограничены одной высотой (чтобы избежать вырождения).
Затем проверьте, какой из двух дистрибутивов подходит лучше.
источник
Подберите смешанное распределение к данным, что-то вроде смеси из 3 нормальных распределений, затем сравните вероятность того, что это соответствие, с соответствием одного нормального распределения (с помощью теста отношения правдоподобия или AIC / BIC).
flexmix
ПакетR
может помочь.источник
источник
Используйте алгоритм кластеризации K-средних для определения различных средств
Ищите функцию KNN в R-seek, чтобы найти соответствующую функцию
источник
kmeans
функцией Matlab . Получающиеся средства сильно различаются от попытки попробовать. (Плохая эвристика в этой реализации?) Для набора из 1 кластера я иногда получаю средства (270 293 693), иногда (260 285 308). Для набора из 3 кластеров некоторые ответы (196,324,468) и (290,459,478).