Знакомство с непрерывными пространствами состояний / действий, MDP и Reinforcement Learning

8

Большинство введений в области MDP и обучения в области подкрепления сосредоточены исключительно на областях, где переменные пространства и действия являются целыми (и конечными). Таким образом, мы быстро знакомимся с Value Iteration, Q-Learning и тому подобным.

Однако наиболее интересные применения (скажем, летающие вертолеты ) RL и MDP связаны с непрерывным пространством состояний и пространствами действия. Я хотел бы выйти за рамки основных введений и сосредоточиться на этих случаях, но я не уверен, как туда добраться.

Какие области мне нужно знать или изучать, чтобы глубже понять эти случаи?

CarrKnight
источник

Ответы: