Я пытаюсь сделать макет для себя, когда уместно использовать тип регрессии (геометрический, пуассоновский, отрицательный бином) с данными счета в рамках GLM (только 3 из 8 распределений GLM используются для данных счета, хотя большая часть того, что Я читал центры вокруг отрицательных биномиальных и пуассоновских распределений).
Когда использовать данные Пуассона против геометрических и отрицательных биномиальных GLM для данных подсчета?
Пока у меня есть следующая логика: это считать данные? Если да, то являются ли среднее значение и дисперсия неравными? Если да, отрицательная биноминальная регрессия. Если нет, Пуассона регрессия. Есть ли нулевая инфляция? Если да, то ноль надувает Пуассона или ноль надувает отрицательный бином.
Вопрос 1 Кажется, что нет четкого указания, когда использовать. Есть ли что-то, чтобы сообщить это решение? Из того, что я понимаю, когда вы переключаетесь на ZIP, средняя дисперсия, равная предположению, становится более расслабленной, поэтому она снова очень похожа на NB.
Вопрос 2 Где геометрическое семейство вписывается в этот или какие вопросы мне следует задавать для данных при принятии решения о том, использовать ли геометрическое семейство в моей регрессии?
Вопрос 3 Я вижу людей, которые постоянно меняют отрицательные биномиальные и пуассоновские распределения, но не геометрические, поэтому я предполагаю, что когда-то его использовать, есть нечто совершенно иное. Если так, то, что это?
PS Я сделал (возможно, слишком упрощенно, из комментариев) диаграмму ( редактируемую ) моего текущего понимания, если бы люди хотели прокомментировать / настроить ее для обсуждения.
Ответы:
Как распределение Пуассона, так и геометрическое распределение являются частными случаями отрицательного биномиального (NB) распределения. Одним из распространенных обозначений является то, что дисперсия NB равна где - это ожидание, а отвечает за количество (чрезмерной) дисперсии. Иногда также используется. Модель Пуассона имеет , т. Е. Равноудаленную дисперсию, а геометрическая имеет . μ θ α = 1 / θ θ = ∞ θ = 1μ + 1 / θ ⋅ μ2 μ θ α = 1 / θ θ = ∞ θ = 1
Таким образом, в случае сомнений между этими тремя моделями, я бы порекомендовал оценить NB: в худшем случае вы теряете немного эффективности, оценивая один параметр слишком много. Но, конечно, существуют также формальные тесты для оценки того, достаточно ли определенного значения для (например, 1 или ). Или вы можете использовать информационные критерии и т. Д.∞θ ∞
Конечно, есть также множество других одно- или многопараметрических распределений данных подсчета (включая упомянутый вами состав Пуассона), которые иногда могут или не могут привести к значительно лучшему подгонке.
Что касается избыточных нулей: две стандартные стратегии состоят в том, чтобы либо использовать распределение данных подсчета с нулевым завышением, либо модель препятствий, состоящую из двоичной модели для нуля или больше плюс модель данных с усеченным нулем. Как вы упоминаете, избыточные нули и сверхдисперсия могут быть смешаны, но часто значительная избыточная дисперсия сохраняется даже после корректировки модели на избыточные нули. Опять же, в случае сомнений, я бы порекомендовал использовать модель нулевой инфляции или барьера на основе NB по той же логике, что и выше.
Отказ от ответственности: это очень краткий и простой обзор. При применении моделей на практике я бы рекомендовал обратиться к учебнику по данной теме. Лично мне нравятся книги по подсчетам Винкельмана и Камерона и Триведи. Но есть и другие хорошие. Для обсуждения на основе R вам также может понравиться наша статья в JSS ( http://www.jstatsoft.org/v27/i08/ ).
источник