Какова подходящая стратегия для решения, какую модель использовать с данными подсчета? У меня есть данные подсчета, которые мне нужно моделировать как многоуровневые модели, и мне (на этом сайте) было рекомендовано, что лучший способ сделать это - через ошибки или MCMCglmm. Однако я все еще пытаюсь узнать о байесовской статистике, и я подумал, что сначала я должен попытаться приспособить свои данные к обобщенным линейным моделям и игнорировать вложенную структуру данных (просто чтобы получить смутное представление о том, чего ожидать).
Около 70% данных равны 0, а отношение дисперсии к среднему равно 33. Таким образом, данные сильно разбросаны.
Попробовав ряд различных вариантов (включая пуассоновскую, отрицательную биномиальную, квази-и нулевую раздутую модель), я вижу очень небольшую согласованность результатов (варьирование от всего значимого до ничего значительного).
Как я могу принять обоснованное решение о том, какой тип модели выбрать на основе нулевой инфляции и чрезмерной дисперсии? Например, как я могу сделать вывод, что квази-пуассон является более подходящим, чем отрицательный бином (или наоборот), и как я могу знать, что использование одного из них адекватно (или нет) с избыточными нулями? Точно так же, как я могу оценить, что больше нет чрезмерной дисперсии, если используется модель с нулевым раздувом? или как мне выбрать между нулевым завышенным пуассоном и нулевым завышенным отрицательным биномом?
источник
Несколько вещей, чтобы добавить к тому, что сказал B_Miner:
1) Вы писали, что модели варьировались от «всего значимого» до «ничего значительного», но это не очень хороший способ сравнения моделей. Вместо этого посмотрите на прогнозируемые значения (как предложил B_miner) и размеры эффекта.
2) Если 70% данных равны 0, я не могу себе представить, что модель без инфляции 0 подходит.
3) Даже если вы не хотите использовать байесовский язык, вы можете использовать GLMM в SAS (PROC GLIMMIX или NLMIXED) и в R (различные пакеты). Игнорирование вложенной природы может все испортить.
4) В общем, решение о том, какая модель лучше, это искусство, а не наука. Есть статистика для использования, но она является руководством к суждению. Просто глядя на то, что вы написали, я бы сказал, что модель ZINB выглядит правильно
источник
Насколько я понимаю, распределения с нулевым раздувом следует использовать в тех случаях, когда для определенных элементов есть обоснование для получения количества нулей по сравнению с любым другим числом. Другими словами, следует использовать распределение с нулевым раздувом, если нули создаются отдельным процессом, а не тот, который производит другие подсчеты. Если у вас нет никаких оснований для этого, учитывая избыточную дисперсию в вашей выборке, я предлагаю использовать отрицательное биномиальное распределение, поскольку оно точно представляет обилие нулей и представляет ненаблюдаемую неоднородность путем свободной оценки этого параметра. Как уже упоминалось выше, книга Скотта Лонга - отличный справочник.
источник
абсолютно согласен с тем, что сказал Мэтт, сначала вы должны подумать о фоне данных ... Не имеет смысла подгонять модели ZI, когда в популяции нет триггеров, генерирующих ноль! Преимущество моделей NB состоит в том, что они могут отображать ненаблюдаемую гетерогенность в гамма-распределенной случайной переменной. Технически: Основными причинами чрезмерной дисперсии являются нестабильность гетерогенности и нулевая инфляция. Я не верю, что твоя подгонка плохая. Между прочим, чтобы получить хорошее соответствие, вы всегда должны сравнивать Deviance со степенями свободы вашей модели. Если отклонение D больше, чем n- (p + 1) (это df), вам следует искать лучшую модель. Хотя в большинстве своем нет моделей лучше, чем ZINB, чтобы избавиться от чрезмерной дисперсии.
если вы хотите добавить ZINB в R, получите пакет
pscl
и попробуйте использовать командуzeroinfl(<model>, dist=negative)
. Для получения дополнительной информации см.?zeroinfl
После загрузки необходимого пакета!источник