Какова связь между методами Q-обучения и политическими градиентами?

21

Насколько я понимаю, Q-learning и градиенты политики (PG) - это два основных подхода, используемых для решения проблем RL. В то время как Q-Learning стремится предсказать вознаграждение за определенное действие, предпринятое в определенном состоянии, политические градиенты непосредственно предсказывают само действие.

Тем не менее, оба подхода кажутся мне идентичными, то есть прогнозирование максимальной награды за действие (Q-learning) эквивалентно прогнозированию вероятности прямого действия (PG). Разница в том, как потеря распространяется обратно?

Теджас Рамдас
источник

Ответы:

20

Однако оба подхода кажутся мне идентичными, т. Е. Прогнозирование максимальной награды за действие (Q-learning) эквивалентно прогнозированию вероятности прямого действия (PG).

Оба метода теоретически основаны на конструкции Марковского процесса принятия решений , и в результате используются аналогичные обозначения и понятия. Кроме того, в простых разрешимых средах следует ожидать, что оба метода приведут к одинаковым или, по крайней мере, эквивалентным оптимальным политикам.

Тем не менее, они на самом деле отличаются внутри. Наиболее фундаментальные различия между подходами заключаются в том, как они подходят к выбору действий как во время обучения, так и в качестве результата (выученная политика). В Q-learning цель состоит в том, чтобы выучить одно детерминированное действие из дискретного набора действий, найдя максимальное значение. С помощью градиентов политики и других прямых поисков политики цель состоит в том, чтобы выучить карту от состояния к действию, которая может быть стохастической и работает в пространствах непрерывных действий.

В результате методы градиента политики могут решать проблемы, которые методы, основанные на значениях, не могут:

  • Большое пространство непрерывного действия. Однако при использовании методов, основанных на значениях, это все еще можно аппроксимировать с дискретизацией - и это не плохой выбор, поскольку на практике функция отображения в градиенте политики должна быть своего рода приближением на практике.

  • Стохастическая политика. Метод, основанный на значениях, не может решить условия, в которых оптимальная политика является стохастической, требующей определенных вероятностей, например, Scissor / Paper / Stone. Это связано с тем, что в Q-обучении нет обучаемых параметров, которые контролируют вероятность действий, постановка задачи в обучении TD предполагает, что детерминистический агент может быть оптимальным.

Однако методы, основанные на значениях, такие как Q-learning, также имеют некоторые преимущества:

  • п(a|s,θ)θ

  • Скорость. Методы обучения TD, которые запускаются при начальной загрузке, часто намного быстрее изучают политику, чем методы, которые должны просто выбирать из среды, чтобы оценить прогресс.

Есть и другие причины, по которым вы можете использовать тот или иной подход:

  • Возможно, вы захотите узнать прогнозируемый доход во время выполнения процесса, чтобы помочь другим процессам планирования, связанным с агентом.

  • Представление состояния проблемы легче поддается либо функции значения, либо функции политики. Функция значения может оказаться очень простой по отношению к государству, а функция политики - очень сложной и трудной для изучения, или наоборот .

Некоторые современные RL-решатели фактически используют оба подхода вместе, такие как Actor-Critic. Это объединяет сильные стороны методов ценности и градиента политики.

Нил Слэйтер
источник
Что вы имеете в виду, когда говорите, что актер-критик сочетает в себе силу обоих методов? Насколько я понимаю, актер оценивает лучшее действие, которое нужно предпринять, основываясь на состоянии, а критик оценивает значение этого состояния, а затем передает вознаграждение актеру. Рассматривать их как единое целое «Политика» все еще выглядит для меня как градиент политики. Почему это на самом деле похоже на Q-learning?
Gulzar
1
@Guizar: критик учится, используя метод, основанный на значении (например, Q-обучения). Таким образом, в целом субъект-критик представляет собой комбинацию метода стоимости и метода градиента политики, и он выигрывает от этой комбинации. Одно заметное улучшение по сравнению с «ванильным» PG заключается в том, что градиенты можно оценивать на каждом этапе, а не в конце каждого эпизода. Если вы ищете более подробный ответ по этому вопросу, вы должны задать вопрос на сайте.
Нил Слэйтер
@Guizar: На самом деле поцарапайте (например, Q-learning), так как я путаюсь между актером-критиком по преимуществу (который корректирует базовую линию, основываясь на значениях действия) и критиком, который обычно является более простой ценностью состояния. Тем не менее, остальное мое описание остается прежним, критик обычно обновляется с использованием методов TD, основанных на значениях, примером которых также является Q learning.
Нил Слэйтер