Я пытаюсь использовать радиочастотную регрессию для прогнозирования производительности бумажной фабрики.
У меня есть поминутные данные для входных данных (скорость и количество поступающей древесной массы и т. Д.), А также для производительности машины (произведенная бумага, мощность, потребляемая машиной), и я собираюсь сделать прогноз на 10 минут впереди на переменных производительности.
У меня есть данные за 12 месяцев, поэтому я разделил их на 11 месяцев для тренировочного набора и последнего месяца для тестирования.
До сих пор я создал 10 новых функций, которые представляют собой запаздывающие значения на 1-10 минут для каждой из переменных производительности, и использовал их, а также входные данные для прогнозирования. Производительность на тестовом наборе была довольно хорошей (система вполне предсказуема), но я беспокоюсь, что мне что-то не хватает в моем подходе.
Например, в этой статье авторы заявляют о своем подходе к тестированию прогнозирующей способности их модели случайного леса:
Симуляция продолжается путем итеративного добавления новой недели данных, обучения новой модели на основе обновленных данных и прогнозирования количества вспышек на следующую неделю.
Чем это отличается от использования «более поздних» данных во временных рядах в качестве тестирования? Должен ли я проверять свою модель РЧ-регрессии с этим подходом, а также с набором данных тестирования? Кроме того, действительно ли этот тип «авторегрессионного» подхода к регрессии случайных лесов действителен для временных рядов, и нужно ли мне даже создавать такое много запаздывающих переменных, если я заинтересован в прогнозе на 10 минут в будущем?
Ответы:
Подход, который вы цитируете, называется прогнозированием по принципу «скользящего начала»: источник, из которого мы прогнозируем, «возвращается вперед», и данные обучения обновляются с учетом новой доступной информации. Более простой подход - «прогнозирование одного источника», когда мы выбираем один источник.
Преимущество скользящего прогнозирования происхождения заключается в том, что оно моделирует систему прогнозирования во времени . При прогнозировании одного источника мы можем случайно выбрать источник, в котором наша система работает очень хорошо (или очень плохо), что может дать нам неверное представление о производительности нашей системы.
Одним из недостатков прогнозирования скользящего происхождения является более высокая потребность в данных. Если мы хотим спрогнозировать 10 шагов, по крайней мере, с 50 историческими наблюдениями, то мы можем сделать это для одного источника с 60 точками данных в целом. Но если мы хотим сделать 10 перекрывающихся скользящих источников, тогда нам нужно 70 точек данных.
Другим недостатком, конечно, является его более высокая сложность.
Само собой разумеется, что вы не должны использовать "более поздние" данные в прогнозировании скользящего происхождения, а только использовать данные до источника, который вы используете в каждой итерации.
Если у вас есть достаточно данных, скользящая оценка происхождения всегда будет внушать мне больше доверия, чем единичная оценка происхождения, поскольку, как мы надеемся, будет усреднять влияние источника.
Да, прогнозирование по скользящему или единичному происхождению действительно для любого прогнозирующего упражнения. Это не зависит от того, используете ли вы случайные леса, ARIMA или что-то еще.
Нужны ли вам ваши запаздывающие переменные, мы не можем вас проконсультировать. Возможно, лучше поговорить с экспертом в данной области, который также может предложить другие материалы. Просто попробуйте свой RF с запаздывающими входами против или без. А также сравните со стандартными тестами, такими как ARIMA или ETS, или даже с более простыми методами, которые могут быть удивительно сложны .
источник