Случайная лесная регрессия для прогнозирования временных рядов

10

Я пытаюсь использовать радиочастотную регрессию для прогнозирования производительности бумажной фабрики.

У меня есть поминутные данные для входных данных (скорость и количество поступающей древесной массы и т. Д.), А также для производительности машины (произведенная бумага, мощность, потребляемая машиной), и я собираюсь сделать прогноз на 10 минут впереди на переменных производительности.

У меня есть данные за 12 месяцев, поэтому я разделил их на 11 месяцев для тренировочного набора и последнего месяца для тестирования.

До сих пор я создал 10 новых функций, которые представляют собой запаздывающие значения на 1-10 минут для каждой из переменных производительности, и использовал их, а также входные данные для прогнозирования. Производительность на тестовом наборе была довольно хорошей (система вполне предсказуема), но я беспокоюсь, что мне что-то не хватает в моем подходе.

Например, в этой статье авторы заявляют о своем подходе к тестированию прогнозирующей способности их модели случайного леса:

Симуляция продолжается путем итеративного добавления новой недели данных, обучения новой модели на основе обновленных данных и прогнозирования количества вспышек на следующую неделю.

Чем это отличается от использования «более поздних» данных во временных рядах в качестве тестирования? Должен ли я проверять свою модель РЧ-регрессии с этим подходом, а также с набором данных тестирования? Кроме того, действительно ли этот тип «авторегрессионного» подхода к регрессии случайных лесов действителен для временных рядов, и нужно ли мне даже создавать такое много запаздывающих переменных, если я заинтересован в прогнозе на 10 минут в будущем?

KRS-весело
источник
2
RF не предназначены для и не включают в явном виде временных соображений. Учитывая это, зачем использовать их вообще для этого анализа? Существует много методологий временных рядов. Выбери один.
Майк Хантер
2
@DJohnson Я подумал, что попытаюсь подражать подходу, описанному в статье: попытаться использовать RF и сравнить его с ARIMA. Вы предполагаете, что это не стоит времени и просто использовать ARIMA?
KRS-fun
4
@DJohnson, механика авторегрессионных моделей очень похожа на механику регрессионных моделей. После того, как построены запаздывающие элементы, почему бы не использовать радиочастоты, как при настройке поперечного сечения? Я думаю, что было бы справедливо попробовать их. Но вы правы в том, что другие методы более популярны во временных рядах, и OP может также выиграть от их изучения.
Ричард Харди
1
Я считаю, что РФ похожи на молот, где все становится гвоздем. С данными, описанными в OP, я выбрал бы панель данных или модель пула, а не ARIMA.
Майк Хантер
5
Я только что столкнулся с этим и прочитал газету, на которую ссылались пару дней назад. Я сравниваю случайный лес и LSTM для многомерного прогнозирования временных рядов. Интересно, что LSTM работает лучше, когда в тренировочные данные включается меньше времени, но, как я добавляю в данных за несколько лет, результаты обоих методов сходятся к истинным. Я думаю, что это в основном потому, что функции предоставляют достаточно информации, чтобы преодолеть временную составляющую. Во всяком случае, думал, что это было интересно. Кроме того, я никогда не видел, чтобы ARIMA работал хорошо, за исключением очень очевидных сезонных случаев, а многомерный ARIMA - это ...
Гоббс

Ответы:

6

Чем это отличается от использования «более поздних» данных во временных рядах в качестве тестирования?

Подход, который вы цитируете, называется прогнозированием по принципу «скользящего начала»: источник, из которого мы прогнозируем, «возвращается вперед», и данные обучения обновляются с учетом новой доступной информации. Более простой подход - «прогнозирование одного источника», когда мы выбираем один источник.

Преимущество скользящего прогнозирования происхождения заключается в том, что оно моделирует систему прогнозирования во времени . При прогнозировании одного источника мы можем случайно выбрать источник, в котором наша система работает очень хорошо (или очень плохо), что может дать нам неверное представление о производительности нашей системы.

Одним из недостатков прогнозирования скользящего происхождения является более высокая потребность в данных. Если мы хотим спрогнозировать 10 шагов, по крайней мере, с 50 историческими наблюдениями, то мы можем сделать это для одного источника с 60 точками данных в целом. Но если мы хотим сделать 10 перекрывающихся скользящих источников, тогда нам нужно 70 точек данных.

Другим недостатком, конечно, является его более высокая сложность.

Само собой разумеется, что вы не должны использовать "более поздние" данные в прогнозировании скользящего происхождения, а только использовать данные до источника, который вы используете в каждой итерации.

Должен ли я проверять свою модель РЧ-регрессии с этим подходом, а также с набором данных тестирования?

Если у вас есть достаточно данных, скользящая оценка происхождения всегда будет внушать мне больше доверия, чем единичная оценка происхождения, поскольку, как мы надеемся, будет усреднять влияние источника.

Кроме того, действительно ли этот тип «авторегрессионного» подхода к регрессии случайных лесов действителен для временных рядов, и нужно ли мне даже создавать такое много запаздывающих переменных, если я заинтересован в прогнозе на 10 минут в будущем?

Да, прогнозирование по скользящему или единичному происхождению действительно для любого прогнозирующего упражнения. Это не зависит от того, используете ли вы случайные леса, ARIMA или что-то еще.

Нужны ли вам ваши запаздывающие переменные, мы не можем вас проконсультировать. Возможно, лучше поговорить с экспертом в данной области, который также может предложить другие материалы. Просто попробуйте свой RF с запаздывающими входами против или без. А также сравните со стандартными тестами, такими как ARIMA или ETS, или даже с более простыми методами, которые могут быть удивительно сложны .

Стефан Коласса
источник