Как мы предсказываем редкие события?

11

Я работаю над разработкой модели прогнозирования страхового риска. Эти модели относятся к «редким событиям», таким как прогнозирование неявки авиакомпаний, обнаружение неисправностей оборудования и т. Д. Когда я готовил свой набор данных, я пытался применить классификацию, но не смог получить полезные классификаторы из-за высокой доли отрицательных случаев. ,

У меня нет большого опыта в статистике и моделировании данных, кроме курса по статистике в старшей школе, поэтому я немного растерялся.

Сначала я думал об использовании неоднородной модели пуассоновского процесса. Я классифицировал его на основе данных о событиях (дата, широта, долгота), чтобы получить хорошую оценку вероятности риска в определенное время в определенный день в конкретном месте.

Я хотел бы знать, каковы методологии / алгоритмы для прогнозирования редких событий?
Что вы рекомендуете в качестве подхода к решению этой проблемы?

user3378649
источник

Ответы:

9

Стандартным подходом является « теория экстремальной ценности », есть прекрасная книга Стюарта Коулса по этому вопросу (хотя текущая цена кажется, скорее, ошибочной ... экстремальной).

Причина, по которой вы вряд ли получите хорошие результаты, используя методы классификации или регрессии, заключается в том, что эти методы обычно зависят от прогнозирования среднего значения данных, а экстремальные события обычно вызываются сочетанием «случайных» факторов, которые все выстраиваются в одном направлении, таким образом, они находятся в хвостах распределения вероятных результатов, которые обычно далеки от условного среднего. Что вы можете сделать, это предсказать все условное распределение, а не только его среднее значение, и получить некоторую информацию о вероятности экстремального события, интегрируя хвост распределения выше некоторого порога. Я обнаружил, что это хорошо работает в приложении по статистическому уменьшению количества осадков .

Дикран Сумчатый
источник
1
Есть ли реализация этой теории на питоне?
user3378649
Извините, я не программирую на Python (пока), поэтому не могу помочь.
Дикран Marsupial
Извините, я не совсем понимаю вашу аргументацию. Скажем, у вас есть rv и предикторы ; Вы заинтересованы в прогнозировании, когда что случается редко. Почему вы не можете приспособить некоторую стандартную классификационную модель для оценки условной вероятности - скажем, логистической регрессии? Если я правильно понимаю, вы говорите, что моделирование условного среднего не дает нам полезной информации об экстремальном событии , это правда. Но мы все еще можем оценить используя стандартную классификацию без теории экстремальных значений - нет? yx1,,xny>Y0P(y>Y0|x1,,xn)E(y|x1,,xn)y>Y0P(y>Y0|x1,,xn)
Кочеде
Да, вы можете сделать это, однако функция затрат, которую вы минимизируете, не нацелена на получение правильных хвостов распределения, поэтому, если это то, что вас интересует, лучше попытаться смоделировать события в хвостах более явно ,
Дикран Сумчатый