Анализ временных рядов со многими нулевыми значениями

19

Эта проблема на самом деле связана с обнаружением пожара, но она сильно аналогична некоторым проблемам обнаружения радиоактивного распада. Наблюдаемые явления являются как спорадическими, так и сильно изменчивыми; таким образом, временной ряд будет состоять из длинных цепочек нулей, прерванных значениями переменных.

Цель - не просто захват событий (разрывы в нолях), но количественная характеристика самих событий. Однако датчики ограничены и, таким образом, иногда будут записывать ноль, даже если «реальность» не равна нулю. По этой причине при сравнении датчиков необходимо включать нули.

Датчик B может быть более чувствительным, чем Датчик A, и я хотел бы описать это статистически. Для этого анализа у меня нет «правды», но у меня есть датчик C, который не зависит от датчиков A и B. Таким образом, я ожидаю, что лучшее согласие между А / В и С указывает на лучшее согласие с «истиной». (Это может показаться шатким, но вам придется поверить мне - я здесь на твердом основании, основываясь на том, что известно из других исследований о датчиках).

Таким образом, проблема заключается в том, как количественно определить «лучшее согласование временных рядов». Корреляция является очевидным выбором, но на нее будут влиять все эти нули (которые нельзя исключить) и, конечно, непропорционально влияют максимальные значения. Среднеквадратичное отклонение также можно рассчитать, но оно будет сильно взвешено по отношению к поведению датчиков в случае, близком к нулю.

Q1: Каков наилучший способ применить логарифмическое масштабирование к ненулевым значениям, которые затем будут объединены с нулями в анализе временных рядов?

Q2: Какие «лучшие практики» вы можете порекомендовать для анализа временных рядов этого типа, где основное внимание уделяется поведению при ненулевых значениях, но преобладают нулевые значения и их нельзя исключать?

Эд Хайер
источник

Ответы:

11

Перефразирую ваш вопрос: «Как аналитик справляется с длительными периодами отсутствия спроса, которые не следуют определенной схеме?»

Ответом на ваш вопрос является анализ прерывистого спроса или разреженный анализ данных. Это обычно происходит, когда у вас есть «много нулей» относительно количества ненулевых. Проблема в том, что есть две случайные переменные; время между событиями и ожидаемый размер события. Как вы сказали, автокорреляция (acf) полного набора показаний не имеет смысла из-за последовательности нулей, ложно увеличивающих acf. Вы можете использовать такие темы, как «метод Кростона», который является процедурой, основанной на модели, а не процедурой, основанной на данных. Метод Кростона уязвим к выбросам и изменениям / тенденциям / сдвигам в уровне спроса, то есть спрос делится на количество периоды с момента последнего запроса. Гораздо более строгий подход может заключаться в том, чтобы использовать «Разреженные данные - неравномерно распределенные данные» или выполнять подобные поиски. Профессор Рамеш Шарда из ОГУ предложил мне довольно оригинальное решение, и я уже несколько лет использую его в своей консультационной практике. Если в серии есть моменты времени, когда возникают продажи, и длительные периоды времени, когда продажи не возникают, можно преобразовать продажи в продажи за период, разделив наблюдаемые продажи на количество периодов отсутствия продаж, получив таким образом коэффициент. Затем можно определить модель между скоростью и интервалом между продажами, кульминацией которого является прогнозируемая скорость и прогнозируемый интервал. Вы можете узнать больше об этом на autobox.com и в Google "неустойчивый спрос" Если в серии есть моменты времени, когда возникают продажи, и длительные периоды времени, когда продажи не возникают, можно преобразовать продажи в продажи за период, разделив наблюдаемые продажи на количество периодов отсутствия продаж, получив таким образом коэффициент. Затем можно определить модель между скоростью и интервалом между продажами, кульминацией которого является прогнозируемая скорость и прогнозируемый интервал. Вы можете узнать больше об этом на autobox.com и в Google "неустойчивый спрос" Если в серии есть моменты времени, когда возникают продажи, и длительные периоды времени, когда продажи не возникают, можно преобразовать продажи в продажи за период, разделив наблюдаемые продажи на количество периодов отсутствия продаж, получив таким образом коэффициент. Затем можно определить модель между скоростью и интервалом между продажами, кульминацией которого является прогнозируемая скорость и прогнозируемый интервал. Вы можете узнать больше об этом на autobox.com и в Google "неустойчивый спрос"

IrishStat
источник
1
У меня есть проблема прогнозирования с неустойчивым спросом. Меня попросили решить. Я знаю, что есть несколько программ для этого времени прогнозирования, но они не бесплатны. Подскажите, пожалуйста, знаете ли вы какие-либо встроенные функции в программном обеспечении с открытым исходным кодом (например, R) для решения этой проблемы? Я искал, но не мог найти это до сих пор ... Спасибо!
Ассу
1
@assu: я не знаю ни о каком бесплатном программном обеспечении, которое соответствует вашим потребностям.
IrishStat
4
@assu. croston()Функция в forecastпакете в R будет реализовывать метод Croston в данных для прогнозирования спроса прерывистыми.
Роб Хиндман