Оценка кластеров цепей Маркова первого порядка

10

Я сгруппировал свой набор данных из нескольких тысяч цепей Маркова первого порядка примерно в 10 кластеров.

Есть ли какой-нибудь рекомендуемый способ, как я могу оценить эти кластеры и выяснить, какие элементы в кластерах совместно используются и как они отличаются от других кластеров? Таким образом, я могу сделать заявление типа «Процессы в кластере A имеют тенденцию оставаться в состоянии Y, как только они туда попадут, что неверно для процессов в других кластерах».

Матрицы перехода этих цепей Маркова слишком велики, чтобы просто «посмотреть и посмотреть». Они относительно редки, если это может помочь.

Моя идея состояла в том, чтобы взять все матрицы переходов в кластере, суммировать их и построить их как интенсивность на рисунке (в масштабе от 0 до 255). Есть что-то более «профессиональное», что я должен попробовать?

user7610
источник
Знаете ли вы , что эти процессы представляют собой рыночные цепочки первого порядка (и, если да, то как)? Если предположить, что ответ на этот вопрос утвердительный, то какую дополнительную априорную информацию вы знаете о структуре? Я пытаюсь определить, почему вы заинтересованы в кластеризации в первую очередь; Я подозреваю, что знание этого поможет нашим читателям более эффективно направить вас к решению.
кардинал
Исходные данные были потоками кликов, созданными пользователями на моем сайте. Я создал процессы markov, чтобы каждый процесс описывал поток кликов одного пользователя. Я знаю, что есть книги и газеты, в которых говорится, что цепочки Маркова не подходят для этого, но мои данные не включают в себя точный URL, который запрашивал пользователь, а только «приложение», которому принадлежит URL. (Мой сайт - это Информационная система, которая разделена на 105 так называемых «приложений», которые в основном являются самостоятельными частями сайта, связанными через домашнюю страницу и боковое меню на каждой странице)
user7610
Я заинтересован в кластеризации, потому что я хочу выявить группы пользователей, которые имеют сходные модели использования сайта. Я предположил, что паттернов, которые фиксирует цепь Маркова, достаточно, чтобы различать такие группы. Я проверил, как созданные мной кластеры соответствуют ролям, которые пользователи имеют на сайте, и всегда выглядит так, что в кластере много пользователей из одной роли и только пара из других ролей, что выглядит многообещающе. Надеюсь, что поможет
user7610
Привет, я сталкиваюсь с той же проблемой. Наконец, как вы решили проблему?
Nan
@nan я не сделал, я нуждался в этом только в проекте термина, таким образом, я просто сделал кое-что еще. Если бы мне пришлось решать это сейчас, я бы попробовал посмотреть на en.wikipedia.org/wiki/… для начальной кластеризации. t-SNE сейчас очень популярен и подходит для IMO. Я надеюсь, что результат, который я получу, будет более значимым, чем результаты, которые я получил с моим специальным подходом. И использование относительно новой супер-крутой вещи удовлетворит учителя;)
user7610

Ответы:

1

Чтобы сделать утверждение о поведении в стационарном состоянии каждого кластера, вы можете вычислить распределения в стационарном состоянии каждой матрицы перехода по собственным векторам, а затем сравнить блочные диаграммы по кластерам. Скорее всего, вы столкнетесь с проблемами при вычислении устойчивого состояния, не применяя сначала какое-либо сглаживание.

Как вы кластеризуете матрицы перехода? Если бы это был я, я бы применил аддитивное сглаживание к каждой строке, затем взял бы центрированное логарифмическое преобразование каждой строки, а затем сгладил матрицы.

Если вы кластеризуетесь с помощью K-средних или другого варианта, вы можете проанализировать нормализованные кластерные центры. Или просто выберите несколько наблюдений из каждого кластера и проанализируйте их.

Джессика Коллинз
источник
0

Во-первых, чтобы понять, соответствуют ли ваши матрицы размера 105 x 105 приложениям, о которых вы упомянули? Когда вы говорите «оставаться в состоянии Y», значит ли это, что вы держитесь за приложение Y?

Тогда я бы предположил, что такие результаты, как «Процессы в кластере A, как правило, остаются в состоянии Y, как только они туда попадут, что неверно для процессов в других кластерах», слишком мелкозернистые, всего с 10 кластерами. Вы пробовали кластеризацию домена приложения - если я правильно понимаю, вы могли бы кластеризовать 105 приложений на основе поведения пользователя. Далее, вы смотрели на простое присутствие пользователей, а не переход, то есть посмотрите на профили пользователей в 105 приложениях? Звучит так, как будто вы можете использовать коэффициент Пирсона между профилями пользователей; либо на кластерах приложений, либо на самих приложениях. Возможно, это можно распространить на переходы между приложениями, но в настоящее время я чувствую, что существует огромное несоответствие между количеством кластеров и типом результата, который вас интересует.

micans
источник