Предположим, у меня чуть более 20 000 месячных временных рядов, охватывающих период с января 2005 года по декабрь 2011 года. Каждый из них представляет глобальные данные о продажах для другого продукта. Что, если вместо вычисления прогнозов для каждого из них я хотел бы сосредоточиться только на небольшом количестве продуктов, которые «действительно имеют значение»?
Я мог бы ранжировать эти продукты по общему годовому доходу и урезать список с помощью классического Парето. Тем не менее, мне кажется, что, хотя они не вносят большой вклад в практический результат, некоторые продукты настолько легко предсказать, что их исключение будет плохим суждением. Продукт, который продавался по 50 долларов в месяц в течение последних 10 лет, может показаться не таким уж большим, но для создания прогнозов о будущих продажах требуется так мало усилий, что я с таким же успехом могу это сделать.
Допустим, я делю свои продукты на четыре категории: высокий доход / легко прогнозируемый - низкий доход / легко прогнозируемый - высокий доход / трудно прогнозируемый - низкий доход / трудно прогнозируемый.
Я думаю, что было бы разумно оставить позади только те временные ряды, которые относятся к четвертой группе. Но как именно я могу оценить «прогнозируемость»?
Коэффициент вариации кажется хорошей отправной точкой (я также помню, как видел какую-то статью об этом некоторое время назад). Но что, если мои временные ряды показывают сезонность / сдвиги уровней / эффекты календаря / сильные тренды?
Я полагаю, что я должен основывать свою оценку только на изменчивости случайного компонента, а не на «необработанных» данных. Или я что-то упустил?
Кто-нибудь сталкивался с подобной проблемой раньше? Как бы вы, ребята, пошли на это?
Как всегда, любая помощь очень ценится!
Это довольно распространенная проблема в прогнозировании. Традиционное решение состоит в том, чтобы вычислять средние абсолютные процентные ошибки (MAPE) для каждого элемента. Чем ниже КАРТА, тем легче прогнозировать предмет.
Одна из проблем заключается в том, что многие серии содержат нулевые значения, а затем MAPE не определено.
Ряды, которые легко прогнозировать, должны иметь низкие значения MASE. Здесь «легкий прогноз» интерпретируется относительно сезонного наивного прогноза. В некоторых случаях может иметь смысл использовать альтернативную базовую меру для масштабирования результатов.
источник
Но, возможно, вы можете попытаться использовать меру MASE, предложенную Робом, чтобы сделать грубое разделение сетки на 20000 в нескольких подгруппах, а затем применить ForeCA к каждой в отдельности.
источник
Этот ответ очень поздно, но для тех, кто все еще ищет подходящую меру прогнозируемости для временных рядов спроса на продукцию, я настоятельно рекомендую рассмотреть приблизительную энтропию .
Спрос на продукцию, как правило, имеет очень сильный сезонный компонент, что делает коэффициент вариации (CV) неуместным. ApEn (m, r) может правильно с этим справиться. В моем случае, поскольку мои данные имеют тенденцию к сильной еженедельной сезонности, я установил параметры m = 7 и r = 0,2 * std, как рекомендовано здесь .
источник