Длиннохвостое распределение временных событий

10

Предположим, у вас есть журналы веб-сервера. В этих журналах у вас есть кортежи такого типа:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

Эти временные метки представляют, например, клики пользователей. Теперь, мы user1будем посещать сайт несколько раз (сессий) в течение месяца, и у вас будут всплески кликов от каждого пользователя во время каждого сеанса (предположим, что когда пользователь заходит на ваш сайт, он нажимает на несколько страниц).

Предположим, вы хотите разделить эти всплески кликов в сеансах, которые их сгенерировали, но у вас нет дополнительного источника информации, только список временных меток. Если вы вычислите распределение интервалов между двумя последовательными кликами одного и того же пользователя, вы получите длиннохвостое распределение. Интуитивно, вы бы искали «параметр обрезки», например, N секунд, где если timestamp_{i+1} - timestamp{i} > N, то ваш timestamp_{i+1}- начало нового сеанса.

Проблема состоит в том, что это распределение в действительности представляет собой смесь двух переменных: X = «интервал между двумя последовательными щелчками в одном сеансе» и Y = «интервал между последним кликом в предыдущем сеансе и первым новым».

Вопрос в том, как оценить это N, которое разделяет два распределения (возможно, с небольшим перекрытием), просто взглянув на всплеск кликов?

marcorossi
источник
Когда вы говорите «просто глядя на всплеск кликов», вы имеете в виду, что не можете вычислить что-либо, кроме N?
Джерард
Я имею в виду, что у вас нет никаких дополнительных источников информации, кроме кортежей (user, timestamp). Основанный на пороге метод (основанный на дельте> N) является просто примером метода. Может быть, что-то еще возможно.
marcorossi
Этот поток может представлять интерес для вас: соответствующие методы кластеризации для временных данных .
gung - Восстановить Монику

Ответы:

2

Вы действительно должны построить логарифм интервалов между щелчками вместо необработанных значений; это сгладит ваш дистрибутив и может даже выявить несколько режимов в вашем дистрибутиве.

Более продвинутые подходы были разработаны нейробиологами, чтобы решить очень похожую проблему в идентификации всплесков нейронов. Эта классическая статья или много других связанных с этим статей на Google Golopar .

Джерад
источник
Я распечатал журнал дистрибутива. Это плоская линия. Как это помогает, хотя? На что бы вы посмотрели? Ссылка на статью отличная, спасибо.
marcorossi
А как насчет только логарифмического графика вероятности? т.е. берут журнал только частот, а не интервалов. Это показывает два режима?
Джерад