Допустим, нам дали следующую проблему:
Предскажите, какие клиенты, скорее всего, прекратят покупки в нашем магазине в ближайшие 3 месяца.
Для каждого клиента мы знаем месяц, когда он начал покупать в нашем магазине, и, кроме того, у нас есть много поведенческих особенностей в ежемесячных агрегатах. «Старший» клиент покупал в течение пятидесяти месяцев; обозначим время, с которого клиент начал покупать, через ( ). Можно предположить, что количество клиентов очень велико. Если клиент перестает покупать в течение трех месяцев, а затем возвращается, он считается новым клиентом, поэтому событие (прекращение покупки) может произойти только один раз.
Два решения приходят мне на ум:
Логистическая регрессия - для каждого клиента и каждого месяца (может быть, за исключением 3 самых новых месяцев) мы можем сказать, прекратил ли клиент покупку или нет, поэтому мы можем проводить выборочные проверки с одним наблюдением на клиента и в месяц. Мы можем использовать количество месяцев с начала в качестве категориальной переменной, чтобы получить некоторый эквивалент функции базовой опасности.
Расширенная модель Кокса - Эта проблема также может быть смоделирована с использованием расширенной модели Кокса. Кажется, что эта проблема больше подходит для анализа выживания.
Вопрос: Каковы преимущества анализа выживания в подобных задачах? Анализ выживания был придуман по какой-то причине, поэтому должно быть какое-то серьезное преимущество.
Мои знания в области анализа выживания не очень глубокие, и я думаю, что большинство потенциальных преимуществ модели Кокса также может быть достигнуто с помощью логистической регрессии.
- Эквивалент стратифицированной модели Кокса может быть получен с использованием взаимодействия и стратифицирующей переменной.
- Модель взаимодействия Кокса может быть получена путем разделения популяции на несколько подгрупп и оценки LR для каждой подгруппы.
Единственное преимущество, которое я вижу, это то, что модель Кокса более гибкая; Например, мы можем легко рассчитать вероятность того, что клиент прекратит покупку через 6 месяцев.
coxph
и получением оценки риска крутые и много.Анализ выживания учитывает тот факт, что каждый клиент имеет свое время входа в исследование. Таким образом, тот факт, что период наблюдения варьируется в зависимости от клиентов, не является проблемой.
Примечание : вот статья, которая показывает, что при некоторых ограничениях и логистика, и модель Кокса связаны между собой.
источник
Маркетинговая литература предлагает Pareto / NBD здесь или подобное. Вы в основном принимаете, что покупка - в то время как они покупают - следует отрицательному биномиальному распределению. Но вы должны смоделировать время, когда клиент останавливается. Это другая часть.
У Пита Фейдера и Брюса Харди есть кое-какие документы по этому вопросу вместе с Абэ.
Есть несколько более простых подходов к Парето / НБД, даже если учесть различные работы Фейдера и Харди. НЕ используйте более простой подход, при котором предполагается, что вероятность остановки постоянна в каждый момент времени - это означает, что ваши более тяжелые клиенты с большей вероятностью отстанут раньше. Это более простая модель, но она ошибочна.
Я не подходил один из них в течение некоторого времени; извините, чтобы быть немного неспецифическим.
Вот ссылка на статью Абэ, в которой эта проблема рассматривается как иерархическая система Байеса. , Если бы я снова работал в этой области, думаю, я бы опробовал этот подход.
источник