Из-за факториала в распределении Пуассона становится непрактичным оценивать модели Пуассона (например, с использованием максимальной вероятности), когда наблюдения велики. Так, например, если я пытаюсь оценить модель для объяснения количества самоубийств в конкретном году (доступны только годовые данные) и скажу, что каждый год совершаются тысячи самоубийств, неправильно ли выражать самоубийства сотнями , так что 2998 будет 29,98 ~ = 30? Другими словами, неправильно ли менять единицу измерения, чтобы сделать данные управляемыми?
n!
=Gamma(n+1)
для n> = 0. Поэтому попробуйте найти функцию, вызываемую,Gamma
если вам нужно вычислить факториал (или логарифмическую гамму, если вы рассчитываете логарифмическую вероятность)Боюсь, ты не сможешь этого сделать. Как утверждает @Baltimark, при большой лямбде распределение будет иметь более нормальную форму (симметричную), а при уменьшении его больше не будет расслоения Пуассона. Попробуйте следующий код в R:
Результат ниже:
Вы можете видеть, что уменьшенный масштаб пуассона (красная линия) полностью отличается от распределения Пуассона.
источник
Вы можете просто игнорировать «факториал» при использовании максимальной вероятности. Вот обоснование вашего примера самоубийства. Позволять:
λ: ожидаемое количество самоубийств в год
к я : количество самоубийств в году i.
Тогда вы максимизируете логарифмическую вероятность как:
LL = ∑ (k i log (λ) - λ - k i !)
Максимизация вышеупомянутого эквивалентна максимизации следующего как k i ! константа:
LL ' = ∑ (k i log (λ) - λ)
Могли бы объяснить, почему факториал является проблемой? Я что-то пропустил?
источник