Как это возможно, что Пуассон GLM принимает нецелые числа?

17

Я действительно ошеломлен тем фактом, что Poisson GLM принимает нецелые числа! Посмотрите:

Данные (содержание data.txt):

1   2001    0.25  1
1   2002    0.5   1
1   2003    1     1
2   2001    0.25  1
2   2002    0.5   1
2   2003    1     1

R скрипт:

t        <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm       <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, 
                family = "quasipoisson")  # also works with family="poisson"
years    <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")

Индекс результирующего года соответствует ожидаемому, то есть 1-2-4по годам 2001-2003.

Но как это возможно, что Пуассон GLM принимает нецелые числа? Распределение Пуассона всегда было только целочисленным!

любознательный
источник
2
Не могли бы вы уточнить, что именно вы хотите знать? Как алгоритм подбора работает с нецелыми числами? Или почему R не проверяет, является ли ответ целым числом? Или что-то не так в результате, когда поставляются нецелые числа?
Момо
@ Момо, да, все эти вопросы интересны!
Любопытно,
2
Пожалуйста, отредактируйте ваш вопрос, чтобы отразить это. Скорее всего, вы получите хороший ответ.
Момо
8
Не то, чтобы это действительно имело значение, как это верно и для этого family="poisson", но обратите внимание, что ваш пример не является Poisson GLM, так как вы используете quasipoissonсемейство, которое в любом случае зависит только от отношения между средним и дисперсией, так что в этом В этом случае не должно быть ничего удивительного, если брать нецелые числа.
Аарон - Восстановить Монику
1
Вот несколько ссылок о том, почему это может иметь смысл.
Дмитрий Васильевич Мастеров

Ответы:

17

Конечно, вы правы, что распределение Пуассона технически определено только для целых чисел. Однако статистическое моделирование - это искусство хороших приближений (« все модели ошибочны »), и бывают моменты, когда имеет смысл обрабатывать нецелочисленные данные, как если бы они были [приблизительно] пуассоновскими.

Например, если вы отправляете двух наблюдателей для записи одних и тех же данных подсчета, может случиться так, что два наблюдателя не всегда соглашаются в подсчете - один может сказать, что что-то произошло 3 раза, а другой сказал, что это произошло 4 раза. Тогда хорошо иметь возможность использовать 3,5 при подборе коэффициентов Пуассона вместо выбора между 3 и 4.

В вычислительном отношении факториал в Пуассоне может затруднить работу с нецелыми числами, но существует непрерывное обобщение факториала. Более того, выполнение оценки максимального правдоподобия для Пуассона даже не требует использования факториальной функции, как только вы упростите выражение .

zkurtz
источник
15

yx

EYi=expβTxi
VarYi=EYi
β
inxi(yiexpβTxi)=0
Конечно, последовательность не подразумевает достоверность каких-либо тестов или доверительных интервалов; вероятность не была указана.

Это следует из подхода, основанного на методе моментов, который мы изучили в школе, и приводит к подходу обобщенных оценочных уравнений .

@ Аарон указал, что вы на самом деле используете квази-пуассоновское соответствие в своем коде. Это означает, что дисперсия пропорциональна среднему

VarYi=ϕEYi

ϕ

Scortchi - Восстановить Монику
источник