У меня есть набор данных, который я ожидаю, чтобы следовать распределению Пуассона, но он разбросан примерно в 3 раза. В настоящее время я моделирую эту избыточную дисперсию, используя что-то вроде следующего кода в R.
## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)
Визуально, это, кажется, соответствует моим эмпирическим данным очень хорошо. Если я доволен подгонкой, есть ли причина, по которой я должен делать что-то более сложное, например, использовать отрицательное биномиальное распределение, как описано здесь ? (Если это так, любые указатели или ссылки на это будет высоко ценится).
О, и я знаю, что это создает слегка зазубренное распределение (из-за умножения на три), но это не должно иметь значения для моего приложения.
Обновление: для тех, кто ищет и находит этот вопрос, вот простая функция R для моделирования перерассеянного пуассона с использованием отрицательного биномиального распределения. Установите d в желаемое среднее значение / отношение дисперсии:
rpois.od<-function (n, lambda,d=1) {
if (d==1)
rpois(n, lambda)
else
rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}
(через список рассылки R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )
источник
Если ваше среднее значение для Пуассона равно 1500, то вы очень близки к нормальному распределению; Вы можете попробовать использовать это как приближение, а затем моделировать среднее значение и дисперсию отдельно.
источник