Означает ли низкая ширина силуэта, что данные имеют небольшую базовую структуру?

10

Я новичок в анализе последовательности, и мне было интересно, как вы реагируете, если средняя ширина силуэта (ASW) из кластерного анализа матриц различий на основе оптимального соответствия является низкой (около 25). Представляется ли целесообразным заключить, что существует небольшая базовая структура, которая позволила бы кластеризовать последовательности? Можете ли вы игнорировать низкий ASW, основанный на других показателях качества кластера (некоторые из них я вставил ниже)? Или вероятно, что выбор, сделанный во время анализа последовательности или последующего кластерного анализа, мог быть ответственен за низкие числа ASW?

Мы ценим любые предложения. Спасибо.

Если требуется больше контекста:

Я изучаю 624 последовательности несоответствий рабочего времени (т. Е. Несоответствия между количеством часов, которое человек предпочитает работать в неделю, и количеством часов, которые они фактически работают) среди людей в возрасте 20 лет. Все последовательности, которые я изучаю, имеют длину 10. Мой объект последовательности имеет пять состояний (M = хочет больше часов, S = хочет те же часы, F = хочет меньше часов, O = не имеет рабочей силы и U = безработный ).

Я не делал систематического учета того, как результаты ASW варьируются в зависимости от различных комбинаций подходов. Тем не менее, я пробовал низкие и средние затраты на получение данных (.1 и .6 от максимальной стоимости замещения - меня больше интересует порядок событий, а не их время) и различные процедуры кластеризации (ward, medium и pam). У меня общее впечатление, что цифры ASW остаются низкими.

Возможно, низкие результаты ASW имеют смысл. Я ожидаю, что эти состояния будут входить в различные последовательности, и состояния могут повторяться. Удаление повторяющихся наблюдений только понижает N с 624 до 536. Изучение данных показывает, что действительно есть большое разнообразие и последовательности, которые я бы назвал очень разными, например, люди, которые хотели одни и те же часы все время, разработали несоответствие, решили несоответствие и колебание назад и вперед между наличием и отсутствием несоответствия. Возможно, отсутствие четко дифференцированных кластеров - это не то же самое, что отсутствие интересных вариаций. Тем не менее, результаты слабых кластеров, кажется, оставляют меня без хорошего способа суммировать последовательности.

Результаты метода Уорда, для которого значение Indel установлено равным 0,1 от стоимости замещения 2 Эти статистические данные показывают, что 6-кластерное решение может быть хорошим. ASW, однако, низок - по крайней мере для решений, которые имеют разумное количество кластеров (2 или 3 слишком мало).

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08
JeremyR
источник

Ответы:

11

ASW является мерой когерентности кластерного решения. Высокое значение ASW означает, что кластеры являются однородными (все наблюдения находятся близко к центру кластера) и что они хорошо разделены. Согласно Kaufmann and Rousseuw (1990), значение ниже 0,25 означает, что данные не структурированы. Между 0,25 и 0,5 данные могут быть структурированы, но это также может быть и искусством. Пожалуйста, имейте в виду, что эти значения являются ориентировочными и не должны использоваться в качестве порога принятия решения. Эти значения не определены теоретически (они не основаны на некотором p-значении), но основаны на опыте авторов. Следовательно, в соответствии с этими низкими значениями ASW ваши данные выглядят довольно неструктурированными. Если цель кластерного анализа носит только описательный характер, то вы можете утверждать, что он обнаруживает некоторые (но только некоторые) из наиболее важных шаблонов. Однако,

Вы также можете попытаться взглянуть на значения ASW "на кластер" (это задается функцией wcClusterQuality). Возможно, некоторые из ваших кластеров четко определены, а некоторые могут быть «ложными» (ASW <0), что приводит к низкому общему значению ASW.

Вы можете попробовать использовать стратегии начальной загрузки, которые должны дать вам лучший совет. В R для этой цели может использоваться функция clusterbootиз пакета fpc(см. Страницу справки). Однако он не работает с взвешенными данными. Если ваши данные не взвешены, я думаю, стоит попробовать.

Наконец, вы можете поближе познакомиться с вашими данными и вашей категоризацией. Возможно, ваши категории слишком нестабильны или плохо определены. Однако, похоже, что это не так.

Как вы сказали, «отсутствие четко дифференцированных кластеров - это не то же самое, что отсутствие интересных вариаций». Существуют и другие методы анализа изменчивости ваших последовательностей, такие как анализ расхождений. Эти методы позволяют изучать связи между последовательностями и объясняющими факторами. Например, вы можете попытаться построить деревья регрессии последовательностей (функция "seqtree" в пакете TraMineR).

Матиас Студер
источник