Я смотрел презентацию специалиста по ML из крупного ритейлера, где они разработали модель для прогнозирования событий на складе.
Давайте на минутку предположим, что со временем их модель становится очень точной, не будет ли это как-то «самоубийственно»? То есть, если модель действительно работает хорошо, то они смогут предвидеть события, отсутствующие на складе, и избегать их, в конечном итоге достигнув точки, когда у них будет мало или вообще нет событий со склада. Но тогда, если это так, не хватит исторических данных, чтобы запустить их модель, или их модель будет сорвана, потому что те же причинные факторы, которые использовались для обозначения события истощения запасов, больше не делают этого.
Каковы стратегии борьбы с таким сценарием?
Кроме того, можно представить себе противоположную ситуацию: например, система рекомендаций может стать «самореализующимся пророчеством» с увеличением продаж пар элементов, обусловленных выходом системы рекомендаций, даже если эти два элемента на самом деле не таковы. Связанный.
Мне кажется, что оба являются результатом своего рода петли обратной связи, которая происходит между выводом предиктора и действиями, которые предпринимаются на его основе. Как можно справиться с такими ситуациями?
источник
Ответы:
Существует две возможности, с помощью которых модель обнаружения при отсутствии на складе (OOS) может быть сорвана:
Соотношение между входами и OOS может меняться со временем. Например, продвижение по службе может привести к более высокому OOS (рекламные продажи прогнозировать сложнее, чем обычные продажи, отчасти потому, что не только средний рост продаж, но и дисперсия продаж, и «труднее прогнозировать» часто переводится в OOS), но система и ее пользователи могут узнать об этом и заложить дополнительный запас для рекламных акций. Через некоторое время первоначальные отношения между рекламными акциями и OOS больше не сохраняются.
Это часто называют «сменой модели» или подобным . Вы можете преодолеть это, адаптировав свою модель. Наиболее распространенным способом является взвешивание входных данных по-разному, придавая меньший вес более старым наблюдениям.
Даже если отношения между предиктором и ООС не изменятся, распределение предиктора может измениться. Например, несколько дней с нулевыми продажами конкретной единицы хранения запасов (SKU) могут сигнализировать о OOS - но если модель работает хорошо, OOS может быть сокращена по всем направлениям, и просто может быть не так много последовательностей нулевых продаж ,
Изменения в распределении предиктора не должны быть проблемой. Ваша модель просто выведет более низкую вероятность OOS.
В конце концов, вам, вероятно, не нужно слишком беспокоиться. Там никогда не будет ноль ООС. Механизмы обратной связи, подобные приведенным выше, существуют, но они не будут работать, пока OOS не будет полностью уничтожен.
Я работаю в прогнозировании розничных продаж уже более двенадцати лет, поэтому у меня есть представление о подобных событиях.
Я могу быть пессимистом, но я думаю, что очень похожие эффекты работают для других случаев использования ОД, чем обнаружение ООС. Или, может быть, это не пессимизм: это означает, что проблемы, скорее всего, никогда не будут «решены», поэтому у нас все еще будет работа, даже спустя десятилетия.
источник
Если вы используете модель для поддержки решений о вмешательстве в систему, то логически модель должна стремиться предсказать результат, обусловленный данным вмешательством. Затем отдельно, вы должны оптимизировать , чтобы выбрать вмешательство с лучшими ожидаемыми результатами. Вы не пытаетесь предсказать свое собственное вмешательство.
В этом случае модель может предсказать спрос (переменная, которую вы не контролируете напрямую), и это, в сочетании с выбором запаса, приведет к возникновению события отсутствия на складе или нет. Модель должна по-прежнему «вознаграждаться» за правильное прогнозирование спроса, поскольку это ее работа. Нет в наличии событий будет зависеть от этой переменной, а также от вашего выбора запаса.
источник
Предположительно, вы можете отслеживать, когда происходят события пополнения запасов. Тогда это просто вопрос арифметики, чтобы решить, когда запас будет исчерпан, если модель не будет использоваться для пополнения запасов.
Это предполагает, что любой положительный уровень запасов не зависит от уровня продаж. Комментатор говорит, что это предположение не соответствует действительности. Я не знаю в любом случае - я не работаю с розничными наборами данных. Но, как упрощение, мой предложенный подход позволяет сделать выводы, используя контрфактуальные рассуждения; является ли это упрощение слишком нереальным, чтобы дать осмысленное понимание, зависит от вас.
источник
Ваш сценарий очень похож на критику Лукаса в экономике. В машинном обучении это называется « сдвиг набора данных ».
Вы можете преодолеть это, как говорит @Sycorax, явно смоделировав его.
источник
Следует помнить, что ОД является инструментальной целью. В конечном счете, мы не хотим прогнозировать события, отсутствующие на складе, мы хотим предотвратить события, не связанные с акциями. Прогнозирование на складе событий просто средство для достижения этой цели. Так что, что касается ошибок типа II, это не проблема. Либо у нас по-прежнему есть OOSE, и в этом случае у нас есть данные для обучения нашей модели, либо у нас нет данных, в которых была решена проблема, для которой была создана модель. Что может быть проблемой, это ошибки типа I. Легко попасть в медвежий патрульзаблуждение, когда у вас есть система X, которая построена для предотвращения Y, вы не видите Y, поэтому вы делаете вывод, что X предотвращает Y, и любые попытки закрыть X прекращаются на основании "Но это делает такую хорошую работу предотвращая Y! " Организации могут быть привязаны к дорогостоящим программам, потому что никто не хочет рисковать возвращением Y, и трудно понять, действительно ли X необходим, не допуская такой возможности.
Затем это становится компромиссом того, насколько часто вы готовы участвовать (в соответствии с вашей моделью) в неоптимальном поведении, чтобы получить контрольную группу. Это часть любого активного исследования: если у вас есть препарат, который вы считаете эффективным, вы должны иметь контрольную группу, которая не получает препарат, чтобы подтвердить, что он действительно эффективен.
источник