Я читал книгу « Усиленное обучение: введение» Ричарда С. Саттона и Эндрю Г. Барто (полный проект, 5 ноября 2017 г.).
На странице 271 представлен псевдокод для эпизодического метода градиента политики Монте-Карло. Глядя на этот псевдокод, я не могу понять, почему кажется, что ставка дисконта появляется 2 раза, один раз в состоянии обновления и второй раз внутри возврата. [Смотрите рисунок ниже]
Кажется, что возврат для шагов после шага 1 является просто усечением возврата первого шага. Кроме того, если вы посмотрите на одну страницу выше в книге, вы найдете уравнение с 1-й дисконтной ставкой (той, что внутри возврата).
Почему тогда псевдокод кажется другим? Я думаю, что я что-то неправильно понимаю:
источник
Это тонкий вопрос.
Если вы посмотрите на алгоритм A3C в оригинальной статье (стр.4 и приложение S3 для псевдокода), их алгоритм критика актера (тот же алгоритм, как эпизодические, так и продолжающиеся проблемы) отключен с коэффициентом гаммы относительно актера. псевдокод критика для эпизодических проблем в книге Саттона и Барто (стр. 322 издания января 2019 г. http://incompleteideas.net/book/the-book.html ). Книга Саттона и Барто имеет дополнительную «первую» гамму, как указано на вашей картинке. Итак, книга или бумага A3C не так? На самом деле, нет.
Ключ находится на стр. 199 из книги Саттона и Барто:
Тонкая проблема заключается в том, что существует две интерпретации коэффициента дисконтирования гаммы:
Литеральные реализации:
Вы можете выбрать любую интерпретацию гаммы, но вы должны помнить о последствиях для алгоритма. Я лично предпочитаю придерживаться интерпретации 1 только потому, что это проще. Поэтому я использую алгоритм в статье A3C, а не в книге Саттона и Барто.
Ваш вопрос был об алгоритме REINFORCE, но я обсуждаю актера-критика. У вас точно такая же проблема, связанная с двумя гамма-интерпретациями и дополнительной гаммой в REINFORCE.
источник