Я новичок в анализе последовательности, и мне было интересно, как вы реагируете, если средняя ширина силуэта (ASW) из кластерного анализа матриц различий на основе оптимального соответствия является низкой (около 25). Представляется ли целесообразным заключить, что существует небольшая базовая структура, которая позволила бы кластеризовать последовательности? Можете ли вы игнорировать низкий ASW, основанный на других показателях качества кластера (некоторые из них я вставил ниже)? Или вероятно, что выбор, сделанный во время анализа последовательности или последующего кластерного анализа, мог быть ответственен за низкие числа ASW?
Мы ценим любые предложения. Спасибо.
Если требуется больше контекста:
Я изучаю 624 последовательности несоответствий рабочего времени (т. Е. Несоответствия между количеством часов, которое человек предпочитает работать в неделю, и количеством часов, которые они фактически работают) среди людей в возрасте 20 лет. Все последовательности, которые я изучаю, имеют длину 10. Мой объект последовательности имеет пять состояний (M = хочет больше часов, S = хочет те же часы, F = хочет меньше часов, O = не имеет рабочей силы и U = безработный ).
Я не делал систематического учета того, как результаты ASW варьируются в зависимости от различных комбинаций подходов. Тем не менее, я пробовал низкие и средние затраты на получение данных (.1 и .6 от максимальной стоимости замещения - меня больше интересует порядок событий, а не их время) и различные процедуры кластеризации (ward, medium и pam). У меня общее впечатление, что цифры ASW остаются низкими.
Возможно, низкие результаты ASW имеют смысл. Я ожидаю, что эти состояния будут входить в различные последовательности, и состояния могут повторяться. Удаление повторяющихся наблюдений только понижает N с 624 до 536. Изучение данных показывает, что действительно есть большое разнообразие и последовательности, которые я бы назвал очень разными, например, люди, которые хотели одни и те же часы все время, разработали несоответствие, решили несоответствие и колебание назад и вперед между наличием и отсутствием несоответствия. Возможно, отсутствие четко дифференцированных кластеров - это не то же самое, что отсутствие интересных вариаций. Тем не менее, результаты слабых кластеров, кажется, оставляют меня без хорошего способа суммировать последовательности.
Результаты метода Уорда, для которого значение Indel установлено равным 0,1 от стоимости замещения 2 Эти статистические данные показывают, что 6-кластерное решение может быть хорошим. ASW, однако, низок - по крайней мере для решений, которые имеют разумное количество кластеров (2 или 3 слишком мало).
PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC
cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4 0.54 0.74 0.71 0.25 0.25 88.66 0.30 203.72 0.50 0.14
cluster5 0.59 0.83 0.79 0.25 0.25 75.85 0.33 183.21 0.54 0.09
cluster6 0.59 0.85 0.82 0.24 0.25 66.94 0.35 164.51 0.57 0.08
cluster7 0.47 0.79 0.75 0.18 0.19 64.09 0.38 154.47 0.60 0.12
cluster8 0.47 0.81 0.77 0.20 0.21 59.47 0.40 152.36 0.63 0.11
cluster9 0.48 0.84 0.80 0.19 0.21 56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21 53.24 0.44 140.18 0.67 0.08
источник