В документе, представляющем DQN « Игра Atari с глубоким обучением подкреплению », упоминалось:
Обратите внимание, что при обучении с помощью повторного опыта необходимо учиться вне политики (поскольку наши текущие параметры отличаются от тех, которые используются для генерации образца), что мотивирует выбор Q-обучения.
Я не совсем понял, что это значит. Что если мы используем SARSA и запомним a'
действие, которое мы должны выполнить в s'
нашей памяти, а затем сэмплируем партии из него и обновим Q, как мы делали в DQN? И могут ли методы актера-критика (A3C, в частности) использовать воспроизведение опыта? Если нет, то почему?
источник
(s, a, r, s')
и извлекаю этот опыт для воспроизведения; Теперь предположим, что моя текущая политика говорит, что вы должны взятьa'
на себяs'
, тогда я отмечу, чтоQ(s, a)
должен бытьr + Q(s', a')
и сделать градиентный спуск. Я думаю, что я делаю опыт воспроизведения по-политике. Есть ли проблема с процессом?источник