Модель регрессии Пуассона с нулевым определяется для выборки как
и далее предполагается, что параметры и удовлетворяютY i = { 0 с вероятностью p i + ( 1 - p i ) e - λ i k с вероятностью ( 1 - p i ) e - λ i λ k i / k ! λ = ( λ 1 , … , λ n ) p =(y1,…,yn)
Yi={0kwith probability pi+(1−pi)e−λiwith probability (1−pi)e−λiλki/k!
λ =( λ1, … , ΛN)р =( р1, … , РN)
журнал( λ )логит ( р )= B β= журнал( p / ( 1 - p ) ) = G γ,
Соответствующая логарифмическая правдоподобие регрессионной модели Пуассона с нулевым имеет вид
L ( γ, β; у )= ∑Yя= 0журнал( егяγ+ опыт( - еВяβ) ) + ∑Yя> 0( уяВяβ- еВяβ)- ∑я = 1Nжурнал( 1 + егяγ) - ∑Yя> 0журнал( уя! )
Здесь и являются матрицами проектирования. Эти матрицы могут быть одинаковыми в зависимости от характеристик, которые желательно использовать для двух процессов генерации. Однако они имеют одинаковое количество строк.GВг
Предполагая, что мы можем наблюдать когда из идеального, нулевого состояния, и когда из пуассоновского состояния, логарифмическая вероятность будетY i Z i = 0 Y iZя= 1YяZя= 0Yя
L ( γ, β; у , z )= ∑я = 1Nжурнал( ф( зя|γ) ) +∑я= 1Nжурнал( ф(уя|Zя,β) )
= ∑я = 1NZя( Gяγ- журнал( 1 + егяγ) ) + - ∑я = 1N( 1 - zя) журнал( 1 + егяγ) +Σя = 1N( 1 - zя) [ уяВяβ- еВяβ- журнал( уя! ) ]
Первые два слагаемых - это потеря в логистической регрессии для разделения из
z_i = 1 . Второе слагаемое - это регрессия к точкам, порожденным пуассоновским процессом.
Zя= 0Zя= 1
Но не скрытые переменные ненаблюдаемы? Цель состоит в том, чтобы максимизировать вероятность первого бревна. Но мы должны ввести скрытые переменные и получить новое логарифмическое правдоподобие. Затем, используя алгоритм EM, мы можем максимизировать второе логарифмическое правдоподобие. Но это предполагает, что мы знаем, что либо либо ?Z i = 1Zя= 0Zя= 1
Ответы:
Корень трудности, с которой вы столкнулись, заключается в предложении:
Как вы заметили, вы не можете. Вместо этого вы максимизируете ожидаемое значение вероятности второго журнала (известное как «полная вероятность журнала данных»), где ожидаемое значение принимается за .Zя
Это приводит к итерационной процедуре, где на итерации вы вычисляете ожидаемые значения учитывая оценки параметров из итерации ( (это называется "E-step" ",) затем подставьте их в полную вероятность регистрации данных (см. ниже РЕДАКТИРОВКА, чтобы узнать, почему мы можем сделать это в этом случае), и максимизируйте это по отношению к параметрам, чтобы получить оценки для текущей итерации (" M-шаг " .)Кт ч Zя ( к - 1 )т ч
Вероятность регистрации полных данных для Пуассона с нулевым раздувом в простейшем случае - два параметра, скажем, и - позволяет существенно упростить, когда дело доходит до М-шага, и это в некоторой степени переносится в вашу форму. Я покажу вам, как это работает в простом случае с помощью некоторого кода R, чтобы вы могли увидеть суть этого. Я не буду упрощать как можно больше, так как это может привести к потере ясности, когда вы думаете о своей проблеме:λ п
В вашем случае на каждом шаге вы будете делать взвешенную регрессию Пуассона, где весами будутβ λя
1-zhat
получать оценки и, следовательно, , а затем максимизировать:относительно вектора коэффициентов вашей матрицы чтобы получить оценки . Ожидаемые значения , снова рассчитываются на каждой итерации.p i E z i = p i / ( p i + ( 1 - p i ) exp ( - λ i ) )г пя E гя= ря/ ( ря+ ( 1 - ря) опыт( - λя) )
Если вы хотите сделать это для реальных данных, в отличие от простого понимания алгоритма, R-пакеты уже существуют; Вот пример http://www.ats.ucla.edu/stat/r/dae/zipoisson.htm с использованием
pscl
библиотеки.РЕДАКТИРОВАТЬ: Я должен подчеркнуть, что то, что мы делаем, - это максимизация ожидаемого значения вероятности записи полного журнала, а НЕ максимизация вероятности полного журнала данных с подключением ожидаемых значений отсутствующих данных / скрытых переменных. Как это происходит, если вероятность того, что журнал полных данных является линейным по отсутствующим данным, как и здесь, два подхода одинаковы, но в остальном это не так.
источник