Во-первых, я не статистика. Тем не менее, я делаю статистический анализ сети для моей докторской степени.
В рамках сетевого анализа я построил дополнительную интегральную функцию распределения (CCDF) сетевых степеней. Я обнаружил, что, в отличие от обычных сетевых дистрибутивов (например, WWW), дистрибутив лучше всего соответствует логнормальному распределению. Я попытался приспособить его к степенному закону и, используя сценарии Matlab Клаусета и его коллег, обнаружил, что хвост кривой соответствует степенному закону с отсечкой.
Пунктирная линия соответствует степенному закону. Фиолетовая линия обозначает нормальную посадку. Зеленая линия представляет экспоненциальное соответствие.
Я пытаюсь понять, что это все значит? Я прочитал эту статью Ньюмана, которая слегка затрагивает эту тему: http://arxiv.org/abs/cond-mat/0412004
Ниже мое дикое предположение:
Если распределение степеней следует распределению по степенному закону, я понимаю, что это означает, что в распределении ссылок и степени сети существует линейное преференциальное присоединение (обогащение получает более богатый эффект или процесс Юлса).
Прав ли я, говоря, что с логнормальным распределением, которое я наблюдаю, в начале кривой наблюдается сублинейная преференциальная привязка, которая становится более линейной в направлении хвоста, где она может быть подогнана по степенному закону?
Кроме того, поскольку нормальное логарифмическое распределение происходит, когда логарифм случайной величины (скажем, X) нормально распределен, означает ли это, что в логарифмическом нормальном распределении имеется больше небольших значений X и менее больших значений X, чем случайная величина, которая следует за степенным законом распределения будет иметь?
Что еще более важно, что касается распределения степеней сети, предполагает ли лог-нормальное преференциальное вложение по-прежнему сеть без масштабирования? Мой инстинкт подсказывает мне, что, поскольку хвост кривой может быть подобран по степенному закону, сеть все еще может быть заключена как обладающая безмасштабными характеристиками.
Ответы:
Я думаю, что будет полезно разделить вопрос на две части:
Второй вопрос на самом деле сложнее из двух. Как отмечали некоторые люди в комментариях выше, существует много механизмов, которые производят степенное распределение, и преференциальная привязанность (во всех ее вариациях и славе) является лишь одним из многих. Таким образом, наблюдение за степенным распределением в ваших данных (даже подлинным, которое проходит необходимые статистические тесты) не является достаточным доказательством для того, чтобы сделать вывод о том, что процесс генерации был предпочтительным приложением. Или, в более общем случае, если у вас есть механизм A, который создает некоторый шаблон X в данных (например, логарифмическое распределение степеней в вашей сети). Наблюдение шаблона X в ваших данных не является доказательством того, что ваши данные были получены с помощью механизма A. Данные соответствуют A, но это не означает, что A является правильным механизмом.
Чтобы действительно показать, что ответ является А, вы должны непосредственно проверить его механистические предположения и показать, что они также применимы к вашей системе, а также, предпочтительно, показать, что другие предсказания механизма также сохраняются в данных. Действительно замечательный пример части тестирования предположений был сделан Сидом Реднером (см. Рис. 4 этой статьи ), в котором он показал, что для сетей цитирования предположение о линейном предпочтительном присоединении действительно выполняется в данных.
Наконец, термин «сеть без масштаба» перегружен в литературе, поэтому я настоятельно рекомендую избегать его. Люди используют его для обозначения сетей с степенным распределением степеней ик сетям, выросшим за счет (линейного) льготного вложения. Но, как мы только что объяснили, эти две вещи не одинаковы, поэтому использование одного термина для обозначения обоих просто сбивает с толку. В вашем случае логарифмически нормальное распределение полностью несовместимо с классическим линейным механизмом предпочтительного присоединения, поэтому, если вы решите, что логарифмически нормальное является ответом на вопрос 1 (в моем ответе), то это будет означать, что ваша сеть не масштабировать бесплатно »в этом смысле. Тот факт, что верхний хвост «в порядке» как степенное распределение, в этом случае не имеет смысла, поскольку всегда есть некоторая часть верхнего хвоста любого эмпирического распределения, которая пройдет этот тест (и он пройдет, потому что тест теряет энергию, когда не хватает данных, что и происходит в крайнем верхнем хвосте).
источник
Такой крутой вопрос. У меня есть связанный разговор об этом, связанный с вопросом, который я задал в другом месте на CrossValidated, Там я спросил, является ли гамма-распределение хорошим распределением для использования при моделировании социальной сети, где вероятность связей является эндогенной для некоторой непрерывной характеристики «популярности» узлов. @NickCox предложил использовать вместо этого логнормальное распределение. Я ответил, что логнормальное распределение имеет некоторое теоретическое обоснование в качестве основного процесса, описывающего популярность, потому что популярность можно интерпретировать как продукт многих положительных значений случайных величин (например, богатство, доход, рост, сексуальное мастерство, боевое мастерство, IQ). Для меня это имеет больше смысла, чем теоретическое обоснование степенного закона, и оно сочетается с эмпирическими данными, что говорит о том, что форма степенного закона слишком негибка, чтобы объяснить кросс-сетевое изменение в распределении степеней. Логнормальный, для сравнения, имеет очень гибкую форму с режимом, приближающимся к нулю для высокой дисперсии. Кроме того, имеет смысл, что асимметрия распределения степеней должна увеличиваться с дисперсией из-за эффекта преимущественного присоединения.
В целом, я думаю, что логнормальное распределение лучше всего соответствует вашим данным, потому что логнормальное распределение лучше описывает базовый процесс формирования степенного распределения, чем степенной закон или экспоненциальное распределение.
источник
Зайдя на этот сайт после подсчета моего распределения пузырьков и использования степенного закона для данных вязкости.
Просматривая примеры наборов данных в степенной статье Clauset et al. они выдвинули некоторые реальные ужасы наборов данных, далекие от наборов данных степенного закона, чтобы поддержать их аргумент. Исходя из здравого смысла, я бы, конечно, не пытался приспособить степенную функцию ко всему диапазону данных для большинства из них. Тем не менее, само масштабируемое поведение в реальном мире может быть допустимым для части наблюдаемой системы, но нарушаться, когда некоторые системные свойства достигают физического или функционального предела.
Очень читаемые статьи ниже относятся к подгонке кривой роста для экологов, с хорошим обсуждением степенного закона и связанных с ним распределений, основанных на наблюдательных моделях поведения населения.
Автор гораздо более прагматичен, чем Clauset et al. Цитата: «... если цель только лучшая, и масштабы вне окна масштабирования набора данных не обсуждаются, любая модель может быть достаточной, если она дает хорошие результаты и не дает максимумов или минимумов внутри изученного окна масштаба «. «Для того, чтобы иметь возможность сравнивать значения параметров, часто приходится подбирать ту же модель, которую применяли другие исследователи, но это можно сделать в дополнение к применению более подходящей модели или моделей с более ожидаемыми результатами. формы или оба. " Спокойные слова.
Tjørve, E. (2003). Формы и функции кривых видовой площади: обзор возможных моделей. Журнал биогеографии, 30 (6), 827-835.
Tjørve, E. (2009). Формы и функции кривых видовой площади (ii): обзор новых моделей и параметризации. Журнал биогеографии, 36 (8), 1435-1445.
источник
Приведенные выше результаты показывают, что распределение степеней может быть как степенным законом, так и логнормальным, что может указывать на то, что в исследуемой сети сосуществуют свойства малого мира и масштаба. Чтобы проверить, является ли сеть без масштабирования (с постоянным параметром масштабирования) с преимущественным подключением, часто требуется экспериментальный дизайн. В статье Сида Реднера, упомянутой выше, скорость роста используется для понимания механизма роста. В то время как Галлос, Сонг и Максе используют блоки, чтобы покрыть сеть, и заключают, что распределение степеней сети следует распределению по степенному закону, если NB (фунт) ~ фунт ^ -дБ. Или исследуя отношения между коэффициентом кластера и степенью (удовлетворяет ли отношение степенному закону). В противном случае обсуждается, что иерархические сети имеют как мелкие мировые, так и масштабные свойства свободной сети. (набрав Фрактальная шкала бесплатно,
источник