Может ли обучение с подкреплением применяться для прогнозирования временных рядов?
time-series
reinforcement-learning
forecasting
Усама Аршад Дар
источник
источник
Ответы:
Да, но в целом это не очень хороший инструмент для решения этой задачи, если только нет существенной обратной связи между прогнозами и текущим поведением системы.
Чтобы построить задачу обучения с подкреплением (RL), в которой стоит использовать алгоритм прогнозирования или управления RL, необходимо определить некоторые компоненты:
Среда , которая находится в одном из многих состояний , которые могут быть измерены / наблюдаемых в последовательности.
Агент , который может наблюдать текущие состояния и взять действия в той же последовательности.
Эволюция состояния в последовательности должна зависеть от некоторой комбинации текущего состояния и предпринятых действий , а также может быть стохастической.
Должен быть сигнал вознаграждения, который агент RL может наблюдать или измерить. Значение вознаграждения должно зависеть от тех же факторов, что и развитие государства, но может зависеть от них по-другому.
Общий случай прогнозирования временных рядов можно сделать таким, чтобы он соответствовал этому, рассматривая прогноз как действие, причем эволюция состояния зависит только от текущего состояния (плюс случайность) и вознаграждения, основанного на состоянии и действии. Это позволит применять RL, но причинно-следственная связь только в одном направлении - из среды в вашу прогнозную модель. Таким образом, лучшее, что вы можете сделать, например, для вознаграждения, - это использовать метрику о правильности прогнозов. Последствия для хороших или плохих прогнозов не влияют на исходную среду. По сути, вы в конечном итоге обернете некоторую прогностическую модель для последовательности (такой как нейронная сеть) на уровне RL, которая может быть легко заменена обработкой базового набора данных для контролируемой задачи обучения.
Один из способов, которым вы могли бы существенно расширить задачи последовательного прогнозирования на проблемы RL, - это расширить область действия среды, чтобы включить решения, принимаемые на основе прогнозов, и состояние систем, на которые влияют эти решения. Например, если вы прогнозируете цены акций, включите свой портфель и фонды в штат. Точно так же действия перестают быть предсказаниями, превращаясь в команды покупки и продажи. Это не улучшит компонент прогнозирования цен (и вам, вероятно, будет лучше рассматривать это как отдельную проблему, используя более подходящие инструменты - например, LSTM), но это будет рассматривать проблему в целом как проблему RL.
источник