Предположим, что независимы иY=(Y1,…,Yn)′
Yi=0Yi=kwith probability pi+(1−pi)e−λiwith probability (1−pi)e−λiλki/k!
Также предположим, что параметры и p = ( p 1 , … , p n ) удовлетворяютλ=(λ1,…,λn)′p=(p1,…,pn)
log(λ)logit(p)=Bβ=log(p/(1−p))=Gλ.
Если те же самые ковариаты влияют на и p, так что B = G , то почему для регрессии Пуассона с нулевым раздувом требуется вдвое больше параметров, чем для регрессии Пуассона?λpB=G
Ответы:
В нулевой накачанной случае Пуассона, если , то β и λ оба имеют ту же длину, что является число столбцов B или G . Таким образом, количество параметров в два раза превышает количество столбцов матрицы проекта, то есть вдвое больше объясняющих переменных, включая точку пересечения (и любое фиктивное кодирование, которое было необходимо).B=G β λ B G
В прямой пуассоновской регрессии не нужно беспокоиться о векторе, нет необходимости оценивать λ . Таким образом, количество параметров - это только длина β, то есть половина количества параметров в случае с нулевым раздувом.p λ β
Теперь нет особой причины, по которой должен равняться G , но обычно это имеет смысл. Однако можно представить процесс генерирования данных, в котором вероятность наличия каких-либо событий вообще создается одним процессом G λ, а совершенно другой процесс B β определяет количество событий при ненулевых событиях. В качестве надуманного примера я выбираю классные комнаты на основе их результатов экзамена по истории, чтобы сыграть в какую-то несвязанную игру, а затем наблюдаю количество забитых ими голов. В этом случае B может сильно отличаться от G (если результаты экзамена по истории отличаются от результатов вождения в игре) и β и λB G Gλ Bβ B G β λ иметь разную длину. может иметь больше столбцов, чем B или меньше. Таким образом, модель Пуассона с нулевым давлением в этом случае будет иметь больше параметров, чем простая модель Пуассона.G B
В обычной практике я думаю, что большую часть времени.G=B
источник