Предположим, у меня есть упорядоченный вектор, где первый элемент - это количество посещений веб-сайта за определенный период времени по уникальному IP с наибольшим числом посещений, второй элемент - это количество посещений по уникальному IP со вторым наибольшее количество посещений и тд. Я понимаю, что могут быть вариации для каждого сайта, но есть ли вообще предполагаемая схема формы этого вектора? Соответствует ли оно, например, степенному распределению?
14
Ответы:
Нет, уникальные посетители сайта не следуют степенному закону.
В последние несколько лет все более строгие требования предъявляются к проверке претензий в отношении степенного права (например, Clauset, Shalizi and Newman 2009). По-видимому, прошлые претензии часто не были хорошо протестированы, и было обычным представлять данные в масштабе логарифмического масштаба и полагаться на «тест на глазное яблоко», чтобы продемонстрировать прямую линию. Теперь, когда формальные тесты стали более распространенными, многие дистрибутивы не соответствуют степенным законам.
Две лучшие из известных мне ссылок, в которых рассматриваются посещения пользователей в Интернете, - это Али и Скарр (2007) и Клаусет, Шализи и Ньюман (2009).
Али и Скарр (2007) рассмотрели случайную выборку кликов пользователей на сайте Yahoo и пришли к выводу:
Вот гистограмма отдельных кликов пользователей за месяц и их одинаковые данные на графике log-log с различными моделями, которые они сравнивали. Данные явно не находятся на прямой линии регистрации, ожидаемой от безмасштабного распределения энергии.
Clauset, Shalizi and Newman (2009) сравнили объяснения степенного закона с альтернативными гипотезами, использующими тесты отношения правдоподобия, и пришли к выводу, что как веб-хиты, так и ссылки «не могут считаться правдоподобными. Их данные для первых были веб-хиты клиентами интернет-службы America Online за один день, а для последних были ссылки на веб-сайты, найденные в 1997 году при просмотре около 200 миллионов веб-страниц. На рисунках ниже представлены кумулятивные функции распределения P (x) и их степенные зависимости максимального правдоподобия.
Для обоих этих наборов данных Clauset, Shalizi и Newman обнаружили, что распределения мощности с экспоненциальным сечением для изменения экстремального хвоста распределения были явно лучше, чем распределения с чисто степенным законом, и что логарифмически-нормальные распределения также хорошо подходят. (Они также смотрели на экспоненциальные и вытянутые экспоненциальные гипотезы.)
Если у вас есть набор данных в руке, и вы не просто любопытны, вам следует подогнать его под разные модели и сравнить их (в R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, ниже. хвост = ЛОЖЬ)). Признаюсь, я понятия не имею, как смоделировать модель ZM с поправкой на ноль. Рон Пирсон написал в блоге о дистрибутивах ZM, и, очевидно, существует пакет z zipfR. Я бы, наверное, начал с негативной биномиальной модели, но я не настоящий статистик (и мне бы очень хотелось их мнение).
(Я также хочу, чтобы второй комментатор @richiemorrisroe выше указал, что данные, вероятно, зависят от факторов, не связанных с поведением отдельных людей, таких как программы, сканирующие Интернет и IP-адреса, которые представляют компьютеры многих людей.)
Документы упоминаются:
Клаусет, Аарон, Косма Рохилла Шализи и Марк Э.Дж. Ньюман. «Степенное распределение в эмпирических данных». Обзор СИАМ 51,4 (2009): 661-703. (Смотрите также этот сайт)
Али, Камаль и Марк Скарр. «Надежные методологии для моделирования распределения веб-кликов». Материалы 16-й международной конференции по всемирной паутине. ACM, 2007.
источник