Когда использовать данные Пуассона против геометрических и отрицательных биномиальных GLM для данных подсчета?

21

Я пытаюсь сделать макет для себя, когда уместно использовать тип регрессии (геометрический, пуассоновский, отрицательный бином) с данными счета в рамках GLM (только 3 из 8 распределений GLM используются для данных счета, хотя большая часть того, что Я читал центры вокруг отрицательных биномиальных и пуассоновских распределений).

Когда использовать данные Пуассона против геометрических и отрицательных биномиальных GLM для данных подсчета?


Пока у меня есть следующая логика: это считать данные? Если да, то являются ли среднее значение и дисперсия неравными? Если да, отрицательная биноминальная регрессия. Если нет, Пуассона регрессия. Есть ли нулевая инфляция? Если да, то ноль надувает Пуассона или ноль надувает отрицательный бином.

Вопрос 1 Кажется, что нет четкого указания, когда использовать. Есть ли что-то, чтобы сообщить это решение? Из того, что я понимаю, когда вы переключаетесь на ZIP, средняя дисперсия, равная предположению, становится более расслабленной, поэтому она снова очень похожа на NB.

Вопрос 2 Где геометрическое семейство вписывается в этот или какие вопросы мне следует задавать для данных при принятии решения о том, использовать ли геометрическое семейство в моей регрессии?

Вопрос 3 Я вижу людей, которые постоянно меняют отрицательные биномиальные и пуассоновские распределения, но не геометрические, поэтому я предполагаю, что когда-то его использовать, есть нечто совершенно иное. Если так, то, что это?

PS Я сделал (возможно, слишком упрощенно, из комментариев) диаграмму ( редактируемую ) моего текущего понимания, если бы люди хотели прокомментировать / настроить ее для обсуждения. Данные подсчета: дерево решений GLM

timothy.s.lau
источник
Я знаком только с программированием на R, но надеюсь, что это поможет ... stats.stackexchange.com/questions/60643/…
RYO ENG Лиан Ху
@RYOENG, я видел это и изложил разницу, описанную в моем вопросе, с помощью логического дерева. Я особенно заинтересован в менее обсуждаемой области, а именно в геометрической области.
timothy.s.lau
(ОБНОВЛЕНИЕ) @Nick Cox's ответ здесь: stats.stackexchange.com/questions/67547/when-to-use-gamma-glms, кажется, капитулирует над чувством, которое я видел до сих пор, ища "Трудно точно определить, когда использовать его вне пустого ответа всякий раз, когда это работает лучше всего »
timothy.s.lau
@Glen_b хороший улов, я обновил логику.
timothy.s.lau
Вы, вероятно, в безопасности, удалив абзац о том, что вас обманывают моды.
Glen_b

Ответы:

12

Как распределение Пуассона, так и геометрическое распределение являются частными случаями отрицательного биномиального (NB) распределения. Одним из распространенных обозначений является то, что дисперсия NB равна где - это ожидание, а отвечает за количество (чрезмерной) дисперсии. Иногда также используется. Модель Пуассона имеет , т. Е. Равноудаленную дисперсию, а геометрическая имеет . μ θ α = 1 / θ θ = θ = 1μ+1/θμ2μθαзнак равно1/θθзнак равноθзнак равно1

Таким образом, в случае сомнений между этими тремя моделями, я бы порекомендовал оценить NB: в худшем случае вы теряете немного эффективности, оценивая один параметр слишком много. Но, конечно, существуют также формальные тесты для оценки того, достаточно ли определенного значения для (например, 1 или ). Или вы можете использовать информационные критерии и т. Д.θ

Конечно, есть также множество других одно- или многопараметрических распределений данных подсчета (включая упомянутый вами состав Пуассона), которые иногда могут или не могут привести к значительно лучшему подгонке.

Что касается избыточных нулей: две стандартные стратегии состоят в том, чтобы либо использовать распределение данных подсчета с нулевым завышением, либо модель препятствий, состоящую из двоичной модели для нуля или больше плюс модель данных с усеченным нулем. Как вы упоминаете, избыточные нули и сверхдисперсия могут быть смешаны, но часто значительная избыточная дисперсия сохраняется даже после корректировки модели на избыточные нули. Опять же, в случае сомнений, я бы порекомендовал использовать модель нулевой инфляции или барьера на основе NB по той же логике, что и выше.

Отказ от ответственности: это очень краткий и простой обзор. При применении моделей на практике я бы рекомендовал обратиться к учебнику по данной теме. Лично мне нравятся книги по подсчетам Винкельмана и Камерона и Триведи. Но есть и другие хорошие. Для обсуждения на основе R вам также может понравиться наша статья в JSS ( http://www.jstatsoft.org/v27/i08/ ).

Ахим Цейлейс
источник
4
μ+μ2>μ
3
μ
3
Как вы могли бы сказать из моих предыдущих комментариев: я не фанат таких упрощенных блок-схем. Чтобы выбрать хорошую модель, нужно понять связи между моделями и их отношение к практическому применению. Может ли вас заинтересовать геометрия или нет, зависит от того, в каком конкретном случае вы находитесь. Точно так же для нулевой инфляции против барьера (который вы пропустили на вашем графике). Наконец, порядок вопросов не обязательно одинаков для всех приложений и т. Д.
Ахим Цейлейс,
2
Я понял, что мой набросок кажется немного упрощенным. Но для студентов, изучающих естественные науки, нередко начинать с довольно упрощенных схем: если вы посещали уроки физики, вы знакомы с тем, как часто они меняют и нарушают «правила», которые вы выучили ранее, что является основой более поздних экспертное и нюансированное понимание. Так что ради обучения я аспирант, я просто пытался получить более «правильное» понимание основ, которые я могу выстроить на более поздних этапах, например, препятствия и т. Д. Спасибо за ссылки Кстати, я буду изучать учебники Вы упомянули, а также вашу газету.
timothy.s.lau
1
журнал(μя)знак равноИксяβ