Однако оба подхода кажутся мне идентичными, т. Е. Прогнозирование максимальной награды за действие (Q-learning) эквивалентно прогнозированию вероятности прямого действия (PG).
Оба метода теоретически основаны на конструкции Марковского процесса принятия решений , и в результате используются аналогичные обозначения и понятия. Кроме того, в простых разрешимых средах следует ожидать, что оба метода приведут к одинаковым или, по крайней мере, эквивалентным оптимальным политикам.
Тем не менее, они на самом деле отличаются внутри. Наиболее фундаментальные различия между подходами заключаются в том, как они подходят к выбору действий как во время обучения, так и в качестве результата (выученная политика). В Q-learning цель состоит в том, чтобы выучить одно детерминированное действие из дискретного набора действий, найдя максимальное значение. С помощью градиентов политики и других прямых поисков политики цель состоит в том, чтобы выучить карту от состояния к действию, которая может быть стохастической и работает в пространствах непрерывных действий.
В результате методы градиента политики могут решать проблемы, которые методы, основанные на значениях, не могут:
Большое пространство непрерывного действия. Однако при использовании методов, основанных на значениях, это все еще можно аппроксимировать с дискретизацией - и это не плохой выбор, поскольку на практике функция отображения в градиенте политики должна быть своего рода приближением на практике.
Стохастическая политика. Метод, основанный на значениях, не может решить условия, в которых оптимальная политика является стохастической, требующей определенных вероятностей, например, Scissor / Paper / Stone. Это связано с тем, что в Q-обучении нет обучаемых параметров, которые контролируют вероятность действий, постановка задачи в обучении TD предполагает, что детерминистический агент может быть оптимальным.
Однако методы, основанные на значениях, такие как Q-learning, также имеют некоторые преимущества:
p ( a ∣ s , θ )θ
Скорость. Методы обучения TD, которые запускаются при начальной загрузке, часто намного быстрее изучают политику, чем методы, которые должны просто выбирать из среды, чтобы оценить прогресс.
Есть и другие причины, по которым вы можете использовать тот или иной подход:
Возможно, вы захотите узнать прогнозируемый доход во время выполнения процесса, чтобы помочь другим процессам планирования, связанным с агентом.
Представление состояния проблемы легче поддается либо функции значения, либо функции политики. Функция значения может оказаться очень простой по отношению к государству, а функция политики - очень сложной и трудной для изучения, или наоборот .
Некоторые современные RL-решатели фактически используют оба подхода вместе, такие как Actor-Critic. Это объединяет сильные стороны методов ценности и градиента политики.