Я пытаюсь смоделировать данные подсчета в R, которые, по-видимому, недостаточно распределены (параметр дисперсии ~ .40). Вероятно, поэтому модель glm
с family = poisson
или отрицательной биномиальной ( glm.nb
) не имеет значения. Когда я смотрю на описания моих данных, у меня нет типичной асимметрии данных подсчета, и остатки в моих двух экспериментальных условиях также являются однородными.
Итак, мои вопросы:
Должен ли я даже использовать специальный регрессионный анализ для своих данных подсчета, если мои данные подсчета не ведут себя как данные подсчета? Иногда я сталкиваюсь с ненормальностью (обычно из-за куртоза), но я использовал метод начального процентиля для сравнения усеченных средних значений (Wilcox, 2012), чтобы учесть ненормальность. Можно ли заменить методы подсчета данных каким-либо надежным методом, предложенным Wilcox и реализованным в пакете WRS?
Если я должен использовать регрессионный анализ для подсчета данных, как я могу объяснить недостаточную дисперсию? Пуассон и отрицательное биномиальное распределение предполагают более высокую дисперсию, так что это не должно быть уместно, верно? Я думал о применении квазипуассоновского распределения, но это обычно рекомендуется для чрезмерной дисперсии. Я читал о бета-биномиальных моделях, которые, по-видимому, способны объяснить как избыточную, так и недостаточную дисперсию, доступны в
VGAM
пакете R. Однако авторы, похоже, рекомендуют наклонный дистрибутив Пуассона , но я не могу найти его в пакете. ,
Может кто-нибудь порекомендовать процедуру для недостаточно распределенных данных и, возможно, предоставить пример кода R для этого?
Ответы:
Лучшие --- и стандартные способы обработки недостаточно рассредоточенных данных Пуассона - это использование обобщенной модели Пуассона, или, возможно, модели препятствий. Три модели подсчета параметров могут также использоваться для недостаточно распределенных данных; например, Фэдди-Смит, Варинг, Фамойе, Конвей-Максвелл и другие модели обобщенного счета. Единственный недостаток - интерпретируемость. Но для общих недисперсных данных следует использовать обобщенный Пуассон. Это похоже на отрицательный бином для перераспределенных данных. Я обсуждаю это более подробно в двух моих книгах, «Моделирование подсчета данных» (2014) и «Отрицательная биномиальная регрессия», 2-е издание (2011), опубликованных издательством Cambridge University Press. В R пакет VGAM допускает обобщенную регрессию Пуассона (GP). Отрицательные значения параметра дисперсии указывают на корректировку недостаточной дисперсии. Вы также можете использовать модель GP для сверхдисперсных данных, но в целом модель NB лучше. Когда дело доходит до этого, лучше всего определить причину недостаточного рассеивания, а затем выбрать наиболее подходящую модель для борьбы с ней.
источник
Однажды я столкнулся с недостаточно рассредоточенным Пуассоном, который имел отношение к частоте, с которой люди будут играть в социальную игру. Оказалось, это из-за крайней регулярности, с которой люди будут играть по пятницам. Удаление пятничных данных дало мне ожидаемый сверхдисперсный Пуассон. Возможно, у вас есть возможность аналогичным образом редактировать ваши данные.
источник
Существуют ситуации, когда недисперсия сливается с нулевой инфляцией, которая типична для подсчета предпочтительных детей лицами обоих полов. Я не нашел способ запечатлеть это на сегодняшний день
источник