Понимание параметров внутри отрицательного биномиального распределения

37

Я пытался соответствовать моим данным в различные модели и выяснил , что fitdistrфункция из библиотеки MASSиз Rдает мне , Negative Binomialкак наиболее подходящее. Теперь со страницы вики определение дается как:

Распределение NegBin (r, p) описывает вероятность k неудач и r успехов в k + r испытаниях Бернулли (p) с успехом в последнем испытании.

Использование Rдля подбора модели дает мне два параметра meanи dispersion parameter. Я не понимаю, как их интерпретировать, потому что я не вижу эти параметры на вики-странице. Все, что я вижу, это следующая формула:

Формула отрицательного биномиального распределения

где kчисло наблюдений и r=0...n. Теперь, как мне связать их с параметрами, заданными R? Файл справки также не предоставляет много информации.

Также, чтобы сказать несколько слов о моем эксперименте: в социальном эксперименте, который я проводил, я пытался подсчитать количество людей, с которыми каждый пользователь связался в течение 10 дней. Численность населения была 100 для эксперимента.

Теперь, если модель соответствует отрицательному биномиальному, я могу слепо сказать, что оно следует этому распределению, но я действительно хочу понять интуитивное значение этого. Что значит сказать, что число людей, с которыми связались мои подопытные, следует за отрицательным биномиальным распределением? Может кто-нибудь, пожалуйста, помогите прояснить это?

легенда
источник

Ответы:

42

Вы должны посмотреть дальше в статье в Википедии о NB , где написано "смесь гамма-пуассона". Хотя определение вы цитируете (который я называю «монету листать» определение , так как я обычно определяю его для классов , как «предположит , что вы хотите , чтобы перевернуть монету , пока вы не получитеkголовы ") легче вывести и имеет больше смысла во вводном контексте вероятности или математической статистики, а гамма-пуассоновская смесь является (по моему опыту) гораздо более общим способом размышления о распределении в прикладных контекстах. (В частности, это определение допускает нецелые значения параметра дисперсии / размера.) В этом контексте ваш параметр дисперсии описывает распределение гипотетического гамма-распределения, которое лежит в основе ваших данных, и описывает ненаблюдаемые изменения среди людей по их внутреннему уровню контакта. В частности, это параметр формы Гаммы, и может быть полезно подумать об этом, чтобы знать, что коэффициент вариации гамма-распределения с параметром формы равен ;θ1/θθ становится большим, скрытая изменчивость исчезает, и распределение приближается к Пуассону.

Бен Болкер
источник
7
хмм. Интересно, почему понизили?
Бен Болкер
Формула NB (среднее значение, дисперсия) также описана в разделе альтернативных формулировок ( en.wikipedia.org/wiki/… ), который теперь находится на этой вики-странице.
mt1022
10

Как я упоминал в моем предыдущем посте, я работаю над тем, чтобы подготовить распределение для подсчета данных. Вот что я узнал:

Когда дисперсия больше, чем среднее значение, избыточная дисперсия очевидна, и, таким образом, отрицательное биномиальное распределение, вероятно, является подходящим. Если дисперсия и среднее совпадают, то предлагается распределение Пуассона, а когда дисперсия меньше среднего, рекомендуется биномиальное распределение.

С данными подсчета, над которыми вы работаете, вы используете «экологическую» параметризацию отрицательной биномиальной функции в R. Раздел 4.5.1.3 (стр. 165) следующей свободно доступной книги говорит об этом конкретно (в контексте R, не меньше!) и, я надеюсь, может ответить на некоторые ваши вопросы:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

Если вы придете к выводу, что ваши данные усечены до нуля (т. Е. Вероятность 0 наблюдений равна 0), то вы, возможно, захотите проверить усеченный до нуля вариант NBD, который находится в пакете R VGAM .

Вот пример его применения:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

Я надеюсь, что это полезно.

Джефф Тайззер
источник
Страница 165 в книге.
SmallChess