У меня есть куча переменных, которые содержат продольные данные от 0 до 7 дня. Я ищу подходящий подход к кластеризации, который может кластеризовать эти продольные переменные (не случаи) в разные группы. Я пытался проанализировать этот набор данных по времени, но результат было довольно сложно объяснить разумно.
Я исследовал доступность процедуры SAS, PROC SIMILARITY
потому что на ее сайте есть пример ; Однако я думаю, что это не правильный путь. В некоторых предыдущих исследованиях использовался исследовательский факторный анализ в каждый момент времени, но в моем исследовании это тоже не вариант из-за необоснованных результатов.
Надеемся, что некоторые идеи могут быть предоставлены здесь, и скомпилированная программа, такая как SAS или R, может быть доступна для обработки. Любое предложение приветствуется!
Вот краткий пример (извините за несовместимое положение между данными и именами переменных):
id time V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
2 0 8 7 3 7 6 6 0 0 5 2
2 1 3 5 2 6 5 5 1 1 4 2
2 2 2 3 2 4 4 2 0 0 2 2
2 3 6 4 2 5 3 2 1 2 3 3
2 4 5 3 4 4 3 3 4 3 3 3
2 5 6 4 5 5 6 3 3 2 2 2
2 6 7 5 2 4 4 3 3 4 4 5
2 7 7 7 2 6 4 4 0 0 4 3
4 0 10 7 0 2 2 6 7 7 0 9
4 1 8 7 0 0 0 9 3 3 7 8
4 2 8 7 0 0 0 9 3 3 7 8
4 3 8 7 0 0 0 9 3 3 7 8
4 4 5 7 0 0 0 9 3 3 7 8
4 5 5 7 0 0 0 9 3 3 7 8
4 6 5 7 0 0 0 9 3 3 7 8
4 7 5 7 0 0 0 9 3 3 7 8
5 0 9 6 1 3 2 2 2 3 3 5
5 1 7 3 1 3 1 3 2 2 1 3
5 2 6 4 0 4 2 4 2 1 2 4
5 3 6 3 2 3 2 3 3 1 3 4
5 4 8 6 0 5 3 3 2 2 3 4
5 5 9 6 0 4 3 3 2 3 2 5
5 6 8 6 0 4 3 3 2 3 2 5
5 7 8 6 0 4 3 3 2 3 2 5
источник
Ответы:
В
Hmisc
пакете R см. Файл справки дляcurveRep
функции, которая обозначает «репрезентативные кривые».curveRep
кластеры на кривых формах, местах и образцах пропущенных моментов времени.источник
x[id==i] <- if(i %% 2) runif(nc[i]) else runif(nc[i], c(.25, .75))
Я не уверен, что это то, что вы ищете, но пакет
kml
в R использует k-средства для кластеризации последовательностей повторных измерений. Вот ссылка на страницу пакета и на бумагу (к сожалению, она закрыта). Это хорошо работает, только если у вас достаточно маленький набор данных (несколько сотен последовательностей).Вот не стробированная версия документа (без проблем со ссылками): http://christophe.genolini.free.fr/recherche/aTelecharger/genolini2011.pdf
источник
Итак, у вас есть p переменных, измеренных каждый раз t на тех же n человек. Один из способов - вычислить t pXp (dis) матриц подобия и применить многомерное масштабирование по модели INDSCAL. Это даст вам две низкоразмерные карты (скажем, двух измерений). Первая карта показывает координаты из р переменных в пространстве размеров и отражает группировки среди них, если таковые имеются. Вторая карта показывает вес (то есть важность или значимость) измерений в каждой матрице t .
источник