Интерпретация разницы между логнормальным и степенным распределением (распределение по степени сети)

22

Во-первых, я не статистика. Тем не менее, я делаю статистический анализ сети для моей докторской степени.

В рамках сетевого анализа я построил дополнительную интегральную функцию распределения (CCDF) сетевых степеней. Я обнаружил, что, в отличие от обычных сетевых дистрибутивов (например, WWW), дистрибутив лучше всего соответствует логнормальному распределению. Я попытался приспособить его к степенному закону и, используя сценарии Matlab Клаусета и его коллег, обнаружил, что хвост кривой соответствует степенному закону с отсечкой.

введите описание изображения здесь

Пунктирная линия соответствует степенному закону. Фиолетовая линия обозначает нормальную посадку. Зеленая линия представляет экспоненциальное соответствие.

Я пытаюсь понять, что это все значит? Я прочитал эту статью Ньюмана, которая слегка затрагивает эту тему: http://arxiv.org/abs/cond-mat/0412004

Ниже мое дикое предположение:

Если распределение степеней следует распределению по степенному закону, я понимаю, что это означает, что в распределении ссылок и степени сети существует линейное преференциальное присоединение (обогащение получает более богатый эффект или процесс Юлса).

Прав ли я, говоря, что с логнормальным распределением, которое я наблюдаю, в начале кривой наблюдается сублинейная преференциальная привязка, которая становится более линейной в направлении хвоста, где она может быть подогнана по степенному закону?

Кроме того, поскольку нормальное логарифмическое распределение происходит, когда логарифм случайной величины (скажем, X) нормально распределен, означает ли это, что в логарифмическом нормальном распределении имеется больше небольших значений X и менее больших значений X, чем случайная величина, которая следует за степенным законом распределения будет иметь?

Что еще более важно, что касается распределения степеней сети, предполагает ли лог-нормальное преференциальное вложение по-прежнему сеть без масштабирования? Мой инстинкт подсказывает мне, что, поскольку хвост кривой может быть подобран по степенному закону, сеть все еще может быть заключена как обладающая безмасштабными характеристиками.

Майк
источник
2
Майк, я думаю, было бы очень интересно увидеть сюжет, на который ты смотришь. Не могли бы вы отредактировать свой ответ, чтобы включить его? Одна вещь, которую я сразу заметил, заключается в том, что значение законов о власти и преференциальной привязанности имеет обратную сторону. В то время как (некоторые) схемы преференциального присоединения генерируют степенные распределения степеней, обратное следствие не верно (то есть, это не единственный способ). Некоторая информация о том, какую сеть вы просматриваете, также может оказаться полезной. Приветствия.
кардинал
1
Я имею в виду преференциальное вложение - это просто другое название эффекта «богатые становятся богаче», верно? Если это так, то линейное (степенное право) распределение степеней сети является лишь одним из многих распределений степеней, которые могут демонстрировать преимущественную привязанность? Другими словами, до тех пор, пока градиент кривой отрицателен на графике log-log, есть некоторые элементы преференциального присоединения, независимо от распределения? Тогда разница между логарифмически нормальным и степенным распределением степеней заключается не столько в том, существует ли преференциальная привязанность, сколько в ее пропорциональности.
Майк
1
Обратите внимание, что преимущественное вложение - это (стохастический) процесс, который генерирует степенные распределения степеней для сети. Наклон линии будет изменяться в зависимости от степени масштабирования для степенного закона, но в случае логнормального графика график не будет линейным даже в хвостовой части. Градиент распределения выживания всегда будет отрицательным, независимо от того, каков эффект. (Почему?)
кардинал
Это очень хорошее редактирование. Спасибо, Майкл! Логическое соответствие в регионе, который вы показали, довольно примечательно. Похоже, что он может немного сломаться в хвосте.
кардинал
Спасибо за ваш ответ снова кардинал. Итак, вы согласны с тем, что в сети, которую я наблюдаю, все еще работает преференциальное вложение? Другой вопрос, который задает вопрос, является ли сеть безмасштабной. Если в сети работает преференциальное вложение и пока сеть принимает новых участников, сеть можно классифицировать как безмасштабную, даже если распределение степеней сети не является линейным. Это где я не очень уверен.
Майк

Ответы:

12

Я думаю, что будет полезно разделить вопрос на две части:

  1. Какова функциональная форма вашего эмпирического распределения? а также
  2. Что эта функциональная форма подразумевает в процессе генерации в вашей сети?

p>0.1x15p<0.1означает в основном делать то же самое. Можете ли вы отклонить эту модель как процесс создания данных о распределении степеней, которые у вас есть? Если нет, то вам разрешено помещать логарифм в категорию "правдоподобно".

x1

Второй вопрос на самом деле сложнее из двух. Как отмечали некоторые люди в комментариях выше, существует много механизмов, которые производят степенное распределение, и преференциальная привязанность (во всех ее вариациях и славе) является лишь одним из многих. Таким образом, наблюдение за степенным распределением в ваших данных (даже подлинным, которое проходит необходимые статистические тесты) не является достаточным доказательством для того, чтобы сделать вывод о том, что процесс генерации был предпочтительным приложением. Или, в более общем случае, если у вас есть механизм A, который создает некоторый шаблон X в данных (например, логарифмическое распределение степеней в вашей сети). Наблюдение шаблона X в ваших данных не является доказательством того, что ваши данные были получены с помощью механизма A. Данные соответствуют A, но это не означает, что A является правильным механизмом.

Чтобы действительно показать, что ответ является А, вы должны непосредственно проверить его механистические предположения и показать, что они также применимы к вашей системе, а также, предпочтительно, показать, что другие предсказания механизма также сохраняются в данных. Действительно замечательный пример части тестирования предположений был сделан Сидом Реднером (см. Рис. 4 этой статьи ), в котором он показал, что для сетей цитирования предположение о линейном предпочтительном присоединении действительно выполняется в данных.

Наконец, термин «сеть без масштаба» перегружен в литературе, поэтому я настоятельно рекомендую избегать его. Люди используют его для обозначения сетей с степенным распределением степеней ик сетям, выросшим за счет (линейного) льготного вложения. Но, как мы только что объяснили, эти две вещи не одинаковы, поэтому использование одного термина для обозначения обоих просто сбивает с толку. В вашем случае логарифмически нормальное распределение полностью несовместимо с классическим линейным механизмом предпочтительного присоединения, поэтому, если вы решите, что логарифмически нормальное является ответом на вопрос 1 (в моем ответе), то это будет означать, что ваша сеть не масштабировать бесплатно »в этом смысле. Тот факт, что верхний хвост «в порядке» как степенное распределение, в этом случае не имеет смысла, поскольку всегда есть некоторая часть верхнего хвоста любого эмпирического распределения, которая пройдет этот тест (и он пройдет, потому что тест теряет энергию, когда не хватает данных, что и происходит в крайнем верхнем хвосте).

aaronclauset
источник
Вы перепутали <и>, когда говорили о значении р для подгонки верхнего хвоста?
Дэвид Натан,
Условия p-значения в этом комментарии верны. Упомянутые здесь значения p взяты из раздела 4.1 arxiv.org/abs/0706.1062 , где большие значения представляют хорошие соответствия, а маленькие значения представляют плохие соответствия. См., В частности, сноску 8 внизу страницы 17.
Джонатан С.
3

Такой крутой вопрос. У меня есть связанный разговор об этом, связанный с вопросом, который я задал в другом месте на CrossValidated, Там я спросил, является ли гамма-распределение хорошим распределением для использования при моделировании социальной сети, где вероятность связей является эндогенной для некоторой непрерывной характеристики «популярности» узлов. @NickCox предложил использовать вместо этого логнормальное распределение. Я ответил, что логнормальное распределение имеет некоторое теоретическое обоснование в качестве основного процесса, описывающего популярность, потому что популярность можно интерпретировать как продукт многих положительных значений случайных величин (например, богатство, доход, рост, сексуальное мастерство, боевое мастерство, IQ). Для меня это имеет больше смысла, чем теоретическое обоснование степенного закона, и оно сочетается с эмпирическими данными, что говорит о том, что форма степенного закона слишком негибка, чтобы объяснить кросс-сетевое изменение в распределении степеней. Логнормальный, для сравнения, имеет очень гибкую форму с режимом, приближающимся к нулю для высокой дисперсии. Кроме того, имеет смысл, что асимметрия распределения степеней должна увеличиваться с дисперсией из-за эффекта преимущественного присоединения.

В целом, я думаю, что логнормальное распределение лучше всего соответствует вашим данным, потому что логнормальное распределение лучше описывает базовый процесс формирования степенного распределения, чем степенной закон или экспоненциальное распределение.

Brash Equilibrium
источник
2

Зайдя на этот сайт после подсчета моего распределения пузырьков и использования степенного закона для данных вязкости.

Просматривая примеры наборов данных в степенной статье Clauset et al. они выдвинули некоторые реальные ужасы наборов данных, далекие от наборов данных степенного закона, чтобы поддержать их аргумент. Исходя из здравого смысла, я бы, конечно, не пытался приспособить степенную функцию ко всему диапазону данных для большинства из них. Тем не менее, само масштабируемое поведение в реальном мире может быть допустимым для части наблюдаемой системы, но нарушаться, когда некоторые системные свойства достигают физического или функционального предела.

Очень читаемые статьи ниже относятся к подгонке кривой роста для экологов, с хорошим обсуждением степенного закона и связанных с ним распределений, основанных на наблюдательных моделях поведения населения.

Автор гораздо более прагматичен, чем Clauset et al. Цитата: «... если цель только лучшая, и масштабы вне окна масштабирования набора данных не обсуждаются, любая модель может быть достаточной, если она дает хорошие результаты и не дает максимумов или минимумов внутри изученного окна масштаба «. «Для того, чтобы иметь возможность сравнивать значения параметров, часто приходится подбирать ту же модель, которую применяли другие исследователи, но это можно сделать в дополнение к применению более подходящей модели или моделей с более ожидаемыми результатами. формы или оба. " Спокойные слова.

Tjørve, E. (2003). Формы и функции кривых видовой площади: обзор возможных моделей. Журнал биогеографии, 30 (6), 827-835.

Tjørve, E. (2009). Формы и функции кривых видовой площади (ii): обзор новых моделей и параметризации. Журнал биогеографии, 36 (8), 1435-1445.

TerryW
источник
1

Приведенные выше результаты показывают, что распределение степеней может быть как степенным законом, так и логнормальным, что может указывать на то, что в исследуемой сети сосуществуют свойства малого мира и масштаба. Чтобы проверить, является ли сеть без масштабирования (с постоянным параметром масштабирования) с преимущественным подключением, часто требуется экспериментальный дизайн. В статье Сида Реднера, упомянутой выше, скорость роста используется для понимания механизма роста. В то время как Галлос, Сонг и Максе используют блоки, чтобы покрыть сеть, и заключают, что распределение степеней сети следует распределению по степенному закону, если NB (фунт) ~ фунт ^ -дБ. Или исследуя отношения между коэффициентом кластера и степенью (удовлетворяет ли отношение степенному закону). В противном случае обсуждается, что иерархические сети имеют как мелкие мировые, так и масштабные свойства свободной сети. (набрав Фрактальная шкала бесплатно,

liandexinshi
источник