Я изо всех сил пытаюсь понять ноль раздутых распределений. Кто они такие? В чем смысл?
Если у меня есть данные со многими нулями, то я мог бы подогнать логистическую регрессию, сначала вычислить вероятность нулей, а затем я мог бы удалить все нули, а затем подобрать регулярную регрессию, используя мой выбор распределения (например, Пуассона).
Тогда кто-то сказал мне: «Эй, используйте раздутое с нулевым раздувом распределение», но, глядя на него, похоже, он не делает ничего по-другому, чем то, что я предложил выше? У него есть регулярный параметр , а затем другой параметр для моделирования вероятности нуля? Это просто делает обе вещи одновременно?
zero-inflation
Calro
источник
источник
Ответы:
Ты абсолютно прав. Это один из способов соответствовать модели с нулевым раздувом (или, как указывает Ахим Цейлис в комментариях, это строго «модель препятствий», которую можно рассматривать как особый случай модели с нулевым раздувом).
Разница между процедурой, которую вы описали, и моделью «все в одном» с нулевым раздуванием заключается в распространении ошибок. Как и все другие двухэтапные процедуры в статистике, общая неопределенность ваших прогнозов на шаге 2 не будет учитывать неопределенность относительно того, должен ли прогноз быть 0 или нет.
Иногда это неизбежное зло. К счастью, в этом нет необходимости. В R вы можете использовать
pscl::hurdle()
илиfitdistrplus::fitdist()
.источник
pscl::hurdle()
). И чтобы получить правильное соответствие, распределение, используемое для данных без нулей, должно быть усечено нулями (или вообще не приводить к каким-либо нулям). Смотрите мой ответ для более подробной информации.Основная идея, которую вы описываете, является правильным подходом, и ее часто называют моделью препятствий (или моделью из двух частей), а не моделью с нулевым раздуванием .
Однако крайне важно, чтобы модель для ненулевых данных учитывала удаление нулей. Если вы подгоните модель Пуассона к данным без нулей, это почти наверняка приведет к плохому подгонке, потому что распределение Пуассона всегда имеет положительную вероятность для нуля. Естественной альтернативой является использование усеченного по нулю распределения Пуассона, которое является классическим подходом к регрессии препятствий для данных подсчета.
Основное различие между моделями с нулевым раздувом и моделями препятствий заключается в том, какая вероятность моделируется в двоичной части регрессии. Для моделей с препятствиями это просто вероятность нуля против ненулевого значения. В моделях с нулевым раздувом это вероятность иметь избыточный ноль , т. Е. Вероятность нулевого уровня, которая не вызвана не раздутым распределением (например, Пуассоном).
Для обсуждения моделей как с барьером, так и с нулевой инфляцией для данных подсчета в R см. Нашу рукопись, опубликованную в JSS, а также отправленную в виде виньетки к
pscl
пакету: http://dx.doi.org/10.18637/jss.v027.i08источник
То, что сказал ssdecontrol, очень правильно. Но я бы хотел добавить несколько центов к обсуждению.
Я только что посмотрел лекцию Ричарда МакЭлрича о моделях с нулевым надуванием для подсчета данных на YouTube.
Имеет смысл оценить p, контролируя переменные, объясняющие скорость чисто пуассоновской модели, особенно если учесть, что вероятность возникновения наблюдаемого нуля из распределения Пуассона не равна 100%.
Это также имеет смысл, когда вы рассматриваете параметры модели, так как в итоге вы получите две переменные для оценки, p и скорость модели Пуассона, и два уравнения, случай, когда счет равен нулю, и случай, когда счет отличается от нуль.
Источник изображения: Статистическое переосмысление - Байесовский курс с примерами на R и Stan. Автор Richard McElreath
Редактировать : опечатка
источник