Допущения о пуассоновской регрессии и как их проверить в R

11

Я хотел бы проверить, какая регрессия лучше всего подходит для моих данных. Моя зависимая переменная - это число и имеет много нулей.

И мне понадобится некоторая помощь, чтобы определить, какую модель и семейство использовать (пуассоновское или квазипуассонное или нулевая инфляция пуассоновых регрессий) и как проверить предположения.

  1. Регрессия Пуассона: насколько я понимаю, сильным предположением является то, что зависимая переменная означает среднее = дисперсия. Как вы это тестируете? Насколько близко они должны быть? Используются ли для этого безусловные или условные средние и дисперсии? Что мне делать, если это предположение не выполняется?
  2. Я читал, что если дисперсия больше, чем среднее значение, мы имеем избыточную дисперсию, и потенциальный способ справиться с этим - это включить больше независимых переменных или семейство = квазипуассон. Есть ли у этого дистрибутива какие-либо другие требования или предположения? Какой тест я использую, чтобы увидеть, подходит ли (1) или (2) лучше - просто anova(m1,m2)?
  3. Я также читал, что отрицательное биномиальное распределение может использоваться при появлении чрезмерной дисперсии. Как мне сделать это в R? В чем разница с квазипуассоном?
  4. Пуассоновская регрессия с нулевым раздувом: я прочитал, что с помощью теста vuong проверяется, какие модели лучше подходят.

    > vuong (model.poisson, model.zero.poisson)

    Это верно? Какие предположения имеет регрессия с нулевым уровнем инфляции?

  5. Статистическая консалтинговая группа UCLA по академическим технологиям имеет раздел о пуассоновых регрессиях с нулевым уровнем инфляции и тестирует модель с нулевым уровнем инфляции (a) и стандартную модель Пуассона (b):

    > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
    > m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
    > vuong(m.a, m.b)

Я не понимаю, что делает | personsчасть первой модели, и почему вы можете сравнить эти модели. Я ожидал, что регрессия будет такой же, и я просто использую другую семью.

Torvon
источник

Ответы:

8

1) Рассчитать среднее значение и выборочную дисперсию. должен быть распределен , где - размер выборки, а процесс действительно пуассоновский - так как они являются независимыми оценками той же дисперсии. F(1,n-1)nX¯S2F(1,n1)n

Обратите внимание, что этот тест игнорирует ковариаты - так что, вероятно, не лучший способ проверить избыточную дисперсию в этой ситуации.

Отметим также, что этот тест, вероятно, слаб против гипотезы с нулевым раздуванием.

3) отрицательный бином в R: используйте glm.nbиз MASSпакета или используйте zeroinflфункцию из psclпакета, используя отрицательную биномиальную ссылку.

4) zip (Пуассон с нулевым раздуванием) - модель смеси. У вас есть бинарный результат, в соответствии с которым субъект принадлежит к группе A (где определен 0) или к группе B (где значения распределены по пуассоновскому или отрицательному биномиальному распределению). Наблюдаемый 0 связан с предметами из группы А + субъектами из группы В, которым просто повезло. Оба аспекта модели могут зависеть от ковариат: членство в группе моделируется как логистика (логарифмические шансы линейны в ковариатах), а пуассоновская часть моделируется обычным образом: логарифмическое линейное число в ковариатах линейно. Таким образом, вам нужны обычные предположения для логистики (для определенной части 0) и обычные предположения для Пуассона. Другими словами, zip-модель не излечит ваши проблемы с избыточной дисперсией - она ​​только излечит большое количество нулей.

5) не уверен, что это за набор данных, и не смог найти ссылку. zeroinfl нуждается в модели как для части Пуассона, так и для двоичной (определенной 0 или нет) части. Определенная 0 часть идет вторым. Итак, мама говорит, что то, является ли человек определенным 0 или нет, зависит от «людей» - и если предположить, что субъект не является определенным 0, счет является функцией туриста и ребенка. Другими словами, лог (среднее) - это линейная функция ученика и ребенка по тем предметам, для которых не требуется счет 0.

mb - это просто общая линейная модель подсчета с точки зрения воспитанника и ребенка - оба предполагаются фиксированными эффектами. Функция связи - Пуассон.

Placidia
источник
Спасибо! Короткий вопрос: есть ли способ создать r ^ 2 или псевдо-r ^ 2, как Nagelkerke в glm, используя family = poisson в R? Спасибо!
Торвон
0
  1. библиотека (pastecs)

stat.desc (dep_var) - а затем посмотрите, равны ли среднее значение и дисперсия. Отсюда вы также можете рассчитать% нулей в вашем векторе.

Фингерман
источник
3
Добро пожаловать на сайт. Это больше похоже на комментарий, чем на ответ; Кроме того, лучше использовать правильное написание и т. д. - это не текстовые сообщения, и многие люди, которые читают этот сайт, имеют английский как 2-й или 3-й или .... язык.
Питер Флом - Восстановить Монику
3
Пожалуйста, работайте над улучшением этого быстрого ответа.
chl