Я действительно ошеломлен тем фактом, что Poisson GLM принимает нецелые числа! Посмотрите:
Данные (содержание data.txt
):
1 2001 0.25 1
1 2002 0.5 1
1 2003 1 1
2 2001 0.25 1
2 2002 0.5 1
2 2003 1 1
R скрипт:
t <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t,
family = "quasipoisson") # also works with family="poisson"
years <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")
Индекс результирующего года соответствует ожидаемому, то есть 1-2-4
по годам 2001-2003
.
Но как это возможно, что Пуассон GLM принимает нецелые числа? Распределение Пуассона всегда было только целочисленным!
r
generalized-linear-model
poisson-distribution
poisson-regression
любознательный
источник
источник
family="poisson"
, но обратите внимание, что ваш пример не является Poisson GLM, так как вы используетеquasipoisson
семейство, которое в любом случае зависит только от отношения между средним и дисперсией, так что в этом В этом случае не должно быть ничего удивительного, если брать нецелые числа.Ответы:
Конечно, вы правы, что распределение Пуассона технически определено только для целых чисел. Однако статистическое моделирование - это искусство хороших приближений (« все модели ошибочны »), и бывают моменты, когда имеет смысл обрабатывать нецелочисленные данные, как если бы они были [приблизительно] пуассоновскими.
Например, если вы отправляете двух наблюдателей для записи одних и тех же данных подсчета, может случиться так, что два наблюдателя не всегда соглашаются в подсчете - один может сказать, что что-то произошло 3 раза, а другой сказал, что это произошло 4 раза. Тогда хорошо иметь возможность использовать 3,5 при подборе коэффициентов Пуассона вместо выбора между 3 и 4.
В вычислительном отношении факториал в Пуассоне может затруднить работу с нецелыми числами, но существует непрерывное обобщение факториала. Более того, выполнение оценки максимального правдоподобия для Пуассона даже не требует использования факториальной функции, как только вы упростите выражение .
источник
Это следует из подхода, основанного на методе моментов, который мы изучили в школе, и приводит к подходу обобщенных оценочных уравнений .
@ Аарон указал, что вы на самом деле используете квази-пуассоновское соответствие в своем коде. Это означает, что дисперсия пропорциональна среднему
источник