Почему они выбрали бы гамма-распределение здесь?

14

В одном из упражнений для моего курса мы используем медицинский набор данных Kaggle .

Упражнение говорит:

мы хотим смоделировать распределение индивидуальных сборов, и мы также действительно хотим уловить нашу неопределенность в отношении этого распределения, чтобы мы могли лучше охватить диапазон значений, которые мы можем увидеть. Загрузка данных и выполнение начального просмотра:

участок

Из вышесказанного мы можем заподозрить, что здесь действует некое подобие экспоненциального распределения. ... Расходы по страхованию могут быть мультимодальными. Может быть применимо гамма-распределение, и мы могли бы проверить это для распределения расходов, которые не были страховыми претензиями первыми.

Я посмотрел «Гамма-распределение» и нашел «непрерывное, только положительное, унимодальное распределение, которое кодирует время, необходимое для« альфа »событий в пуассоновском процессе со средним временем прибытия« бета »».

Здесь нет времени, просто несвязанные платежи, застрахованные или нет.

Почему они выбрали бы гамма-распределение?

Вики Б
источник

Ответы:

27

Когда вы рассматриваете простые параметрические модели для условного распределения данных (т.е. распределение каждой группы или ожидаемое распределение для каждой комбинации переменных предикторов), и вы имеете дело с положительным непрерывным распределением, два общих варианта выбора - Гамма. и лог-нормальный . Помимо удовлетворения спецификации области распределения (действительные числа больше нуля), эти распределения удобны в вычислительном отношении и часто имеют механистический смысл.

  • Логарифмически нормальное распределение легко получить с помощью потенцируя нормального распределения ( и наоборот, лог-преобразование логарифмически нормального отклоняется дает Normal отклоняется). С механистической точки зрения логарифмическая норма возникает через центральную предельную теорему, когда каждое наблюдение отражает произведение большого числа случайных величин. После того как вы преобразовали данные в журнал, у вас есть доступ к огромному количеству вычислительных и аналитических инструментов (например, что-либо, предполагающее нормальность или использующее методы наименьших квадратов).
  • Как указывает ваш вопрос, одним из способов возникновения гамма- распределения является распределение времени ожидания, пока не произойдет независимых событий с постоянным временем ожидания . Я не могу легко найти ссылку на механистическую модель гамма-распределений страховых требований, но также имеет смысл использовать гамма-распределение с феноменологической (то есть, описания данных / вычислительной точки зрения) точки зрения. Гамма-распределение является частью экспоненциального семейства (которое включает в себя нормальное, но не логарифмическое нормальное), что означает, что все механизмы обобщенных линейных моделейNλдоступен; он также имеет особенно удобную форму для анализа.

Есть и другие причины, по которым можно выбрать одну или другую, например, «тяжесть» хвоста распределения , что может быть важно при прогнозировании частоты экстремальных событий. Существует множество других положительных, непрерывных распределений (например, см. Этот список ), но они, как правило, используются в более специализированных приложениях.

Очень немногие из этих распределений будут отражать мультимодальность, которую вы видите в маргинальных распределениях выше, но мультимодальность может быть объяснена данными, сгруппированными в категории, описанные наблюдаемыми категориальными предикторами. Если нет наблюдаемых предикторов, объясняющих мультимодальность, можно выбрать модель конечной смеси, основанную на смеси (небольшого, дискретного) числа положительных непрерывных распределений.

Бен Болкер
источник
1
Также стоит отметить, что гамма и логнормальные модели дают почти всегда очень похожие результаты
Карло
2
Я работаю в сфере медицинских исследований. Я могу подтвердить, что в целом гамма или логнормальное распределение будет подходящим выбором для модели расходов на здравоохранение или сумм претензий. Распределение гаммы можно вовремя использовать для моделей событий, но они здесь не применимы.
Weiwen Ng
Благодарность!! Это было очень полезно.
Вики B