Я сгруппировал свой набор данных из нескольких тысяч цепей Маркова первого порядка примерно в 10 кластеров.
Есть ли какой-нибудь рекомендуемый способ, как я могу оценить эти кластеры и выяснить, какие элементы в кластерах совместно используются и как они отличаются от других кластеров? Таким образом, я могу сделать заявление типа «Процессы в кластере A имеют тенденцию оставаться в состоянии Y, как только они туда попадут, что неверно для процессов в других кластерах».
Матрицы перехода этих цепей Маркова слишком велики, чтобы просто «посмотреть и посмотреть». Они относительно редки, если это может помочь.
Моя идея состояла в том, чтобы взять все матрицы переходов в кластере, суммировать их и построить их как интенсивность на рисунке (в масштабе от 0 до 255). Есть что-то более «профессиональное», что я должен попробовать?
Ответы:
Чтобы сделать утверждение о поведении в стационарном состоянии каждого кластера, вы можете вычислить распределения в стационарном состоянии каждой матрицы перехода по собственным векторам, а затем сравнить блочные диаграммы по кластерам. Скорее всего, вы столкнетесь с проблемами при вычислении устойчивого состояния, не применяя сначала какое-либо сглаживание.
Как вы кластеризуете матрицы перехода? Если бы это был я, я бы применил аддитивное сглаживание к каждой строке, затем взял бы центрированное логарифмическое преобразование каждой строки, а затем сгладил матрицы.
Если вы кластеризуетесь с помощью K-средних или другого варианта, вы можете проанализировать нормализованные кластерные центры. Или просто выберите несколько наблюдений из каждого кластера и проанализируйте их.
источник
Во-первых, чтобы понять, соответствуют ли ваши матрицы размера 105 x 105 приложениям, о которых вы упомянули? Когда вы говорите «оставаться в состоянии Y», значит ли это, что вы держитесь за приложение Y?
Тогда я бы предположил, что такие результаты, как «Процессы в кластере A, как правило, остаются в состоянии Y, как только они туда попадут, что неверно для процессов в других кластерах», слишком мелкозернистые, всего с 10 кластерами. Вы пробовали кластеризацию домена приложения - если я правильно понимаю, вы могли бы кластеризовать 105 приложений на основе поведения пользователя. Далее, вы смотрели на простое присутствие пользователей, а не переход, то есть посмотрите на профили пользователей в 105 приложениях? Звучит так, как будто вы можете использовать коэффициент Пирсона между профилями пользователей; либо на кластерах приложений, либо на самих приложениях. Возможно, это можно распространить на переходы между приложениями, но в настоящее время я чувствую, что существует огромное несоответствие между количеством кластеров и типом результата, который вас интересует.
источник