Почему ставка дисконта в алгоритме REINFORCE появляется дважды?

11

Я читал книгу « Усиленное обучение: введение» Ричарда С. Саттона и Эндрю Г. Барто (полный проект, 5 ноября 2017 г.).

На странице 271 представлен псевдокод для эпизодического метода градиента политики Монте-Карло. Глядя на этот псевдокод, я не могу понять, почему кажется, что ставка дисконта появляется 2 раза, один раз в состоянии обновления и второй раз внутри возврата. [Смотрите рисунок ниже]

введите описание изображения здесь

Кажется, что возврат для шагов после шага 1 является просто усечением возврата первого шага. Кроме того, если вы посмотрите на одну страницу выше в книге, вы найдете уравнение с 1-й дисконтной ставкой (той, что внутри возврата).

Почему тогда псевдокод кажется другим? Я думаю, что я что-то неправильно понимаю:

(13.6)θt+1 =˙ θt+αGtθπ(At|St,θt)π(At|St,θt).

Диего Орельяна
источник

Ответы:

5

Коэффициент дисконтирования появляется дважды, и это правильно.

Это связано с тем, что функция, которую вы пытаетесь максимизировать в REINFORCE для эпизодической проблемы (принимая градиент), представляет собой ожидаемый возврат из заданного (распределения) начального состояния:

J(θ)=Eπ(θ)[Gt|St=s0,t=0]

G1G2γ=0

J(θ)γt

Нил Слэйтер
источник
5

γt

Я просто хотел бы дополнительно уточнить, что вы, похоже, ничего не понимаете. Уравнение (13.6) в книге действительно отличается от псевдокода .

Теперь у меня нет издания книги, которое вы упомянули здесь, но у меня есть более поздний вариант от 22 марта 2018 года, и текст по этой конкретной теме, похоже, похож. В этом выпуске:

  • γ=1
  • Это доказательство в конечном итоге приводит к тому же уравнению (13.6) на стр. 329.
  • γ=1
  • γ<1
Деннис Соемерс
источник
2
Спасибо. Объяснение вашего третьего пункта отсутствовало в проекте 2017 года.
Диего Орельяна
2
@DiegoOrellana Я больше не могу найти ссылку на черновик от 22 марта, кажется, здесь есть еще более поздний черновик (не могу найти указанную дату) здесь . Эта версия на самом деле имеет необычную обложку, поэтому она может быть даже окончательной версией, а не черновиком. Если в будущем ссылка будет разорвана, я подозреваю, что новая ссылка будет доступна здесь .
Деннис Соемерс
3

Это тонкий вопрос.

Если вы посмотрите на алгоритм A3C в оригинальной статье (стр.4 и приложение S3 для псевдокода), их алгоритм критика актера (тот же алгоритм, как эпизодические, так и продолжающиеся проблемы) отключен с коэффициентом гаммы относительно актера. псевдокод критика для эпизодических проблем в книге Саттона и Барто (стр. 322 издания января 2019 г. http://incompleteideas.net/book/the-book.html ). Книга Саттона и Барто имеет дополнительную «первую» гамму, как указано на вашей картинке. Итак, книга или бумага A3C не так? На самом деле, нет.

Ключ находится на стр. 199 из книги Саттона и Барто:

Если существует дисконтирование (гамма <1), его следует рассматривать как форму завершения, что можно сделать, просто включив множитель во второе слагаемое в (9.2).

Тонкая проблема заключается в том, что существует две интерпретации коэффициента дисконтирования гаммы:

  1. Мультипликативный фактор, который придает меньший вес отдаленным будущим наградам.
  2. Вероятность 1 - гамма, что моделируемая траектория внезапно завершается в любой момент времени. Эта интерпретация имеет смысл только для эпизодических случаев, а не для продолжающихся случаев.

Литеральные реализации:

  1. Просто умножьте будущие награды и связанные с ними величины (V или Q) в будущем на гамму.
  2. Смоделируйте некоторые траектории и случайным образом прекратите (1 - гамма) из них на каждом временном шаге. Прекращенные траектории не дают немедленных или будущих вознаграждений.

Glnπ(a|s)

γ2Glnπ(a|s)0.81Glnπ(a|s)

Glnπ(a|s)г

Вы можете выбрать любую интерпретацию гаммы, но вы должны помнить о последствиях для алгоритма. Я лично предпочитаю придерживаться интерпретации 1 только потому, что это проще. Поэтому я использую алгоритм в статье A3C, а не в книге Саттона и Барто.

Ваш вопрос был об алгоритме REINFORCE, но я обсуждаю актера-критика. У вас точно такая же проблема, связанная с двумя гамма-интерпретациями и дополнительной гаммой в REINFORCE.

toto2
источник