Я пытаюсь найти лучший способ предсказать сумму платежа для агентства по сбору платежей. Зависимая переменная отлична от нуля только тогда, когда был произведен платеж. Понятно, что существует огромное количество нулей, потому что большинство людей не могут быть достигнуты или не могут погасить долг.
Существует также очень сильная отрицательная корреляция между суммой долга и вероятностью осуществления платежа. Как правило, я бы создал логистическую модель для прогнозирования вероятности оплаты / неоплаты, но это имеет печальное последствие - найти людей с самым низким балансом.
Есть ли способ объединить логистическую модель оплаты / неоплаты с отдельной моделью, прогнозирующей сумму платежа?
regression
predictive-models
logistic
Zelazny7
источник
источник
Ответы:
Идея создания двухэтапной модели - правильный путь, однако необходимо учитывать особую сложность вашей установки, которая заключается в очень сильной отрицательной корреляции между суммой долга и вероятностью осуществления платежа.
Основная проблема построения двухэтапной модели заключается в том, что вторая модель (для прогнозирования долга), построенная только на «ненулевых» показателях, построена на наиболее вероятной неслучайной выборке населения ( т.е. весь набор данных), но комбинированная модель должна быть снова применена ко всей совокупности. Это означает, что вторая модель должна будет делать прогнозы для частей данных, которые она никогда не видела прежде, что приведет к потере точности. Это называется предвзятым выбором выборки (для обзора с точки зрения ML я рекомендую Байесовскую сетевую среду для вывода брака Смитом и Элканом).
KDD-Cup-98 имел дело с подобным вопросом , где нужно предсказать , будет ли, скорее всего, снова пожертвовать и сколько это может пожертвовать донор для организации ветеранов. В этом наборе данных вероятность повторного пожертвования также отрицательно коррелировала с ожидаемой суммой денег. Смещение выборки также появилось.
Бьянка Задрозный и Чарльз Элкан могут найти решение, которое произвело на меня наибольшее впечатление, в « Обучении и принятии решений, когда затраты и вероятности неизвестны ». Они создали чувствительное к затратам решение, основанное на поправке Хекмана , которая, насколько мне известно, является первым систематическим подходом к исправлению ошибки отбора (выборки).
источник
Это очень хороший вопрос (+1).
Почему бы не относиться к нулям, как если бы они были АН?
Вы можете добавить фиктивный ответ, указывающий, были ли возвращены какие-либо деньги ( т. Е. Равны 0, если значение равно 0, и 1, если значение положительное), и подобрать логистическую модель для этого двоичного ответа с теми же предикторами. Вам подойдут 2 модели: двоичный ответ, использующий все точки данных, и непрерывный ответ, использующий только точки нулевых данных (в соответствии с идеей обработки 0 как NA).
Вы по-прежнему можете проверять недействительность параметров в каждой модели и вычислять ожидаемое усиление, используя оба набора параметров.
источник