Я работаю над разработкой модели для прогнозирования общих продаж продукта. У меня есть около полутора лет данных о бронировании, поэтому я могу провести стандартный анализ временных рядов. Однако у меня также есть много данных о каждой «возможности» (потенциальной продаже), которая была либо закрыта, либо потеряна. «Возможности» развиваются вдоль этапов трубопровода, пока они не будут закрыты или потеряны; они также имеют связанные данные о потенциальном покупателе, продавце, истории взаимодействия, отрасли, предполагаемом размере заказов и т. д.
В конечном итоге моя цель - предсказать общее количество бронирований, но я хочу объяснить всю эту информацию о текущих «возможностях», которые являются истинной «коренной причиной» бронирований.
Одна идея, которую я имею, состоит в том, чтобы использовать две разные модели поочередно следующим образом:
Используйте исторические «возможности», чтобы построить модель, которая предсказывает заказы, возникающие из индивидуальной «возможности» (я бы, вероятно, использовал для этого шага случайные леса или даже обычную старую линейную регрессию).
Используйте модель от 1, чтобы предсказать предполагаемые резервирования всех «возможностей», которые в настоящее время находятся в процессе разработки, затем суммируйте эти оценки на основе месяца, в котором была создана каждая «возможность».
Используйте модель временных рядов (возможно, ARIMA?), Используя 1,5-месячные данные по историческим временным рядам И прогнозируемое (используя модель из 1) общее количество бронирований для всех «возможностей», созданных в этом месяце.
Конечно, при преобразовании в реальные заказы будет задержка, но модель временного ряда должна справиться с задержкой.
Как это звучит? Я много читал о временных рядах и прогнозировании продаж, и, насколько я могу судить, это несколько уникальный подход. Поэтому я очень ценю любые отзывы!
источник
Ответы:
В итоге вы можете получить модель, которая, кажется, соответствует вашим текущим данным, но она отклеится, как только вы попытаетесь получить прогноз вне выборки. Рассмотрите возможность составить свой прогноз на 6 месяцев. У вас нет возможности узнать, какими будут возможности через шесть месяцев, поэтому вам придется создать еще один набор моделей, прогнозирующих каждый из входных параметров вашей модели возможностей. И, как только вы сделаете это, у вас будет много моделей, подающих вашу основную модель, но каждая из маленьких моделей будет иметь свою собственную ошибку прогнозирования, и они будут составными, но ваша основная модель не будет знать об этом, и, как следствие, все ваши интервалы прогнозирования будут сильно дефлированы.
источник