Оптимизация политики в доверенных регионах (TRPO) и Proximal Policy Optimization (PPO) - это два передовых алгоритма градиента политики.
При использовании одного непрерывного действия обычно вы используете некоторое распределение вероятностей (например, гауссово) для функции потерь. Черновая версия:
где является преимуществом вознаграждений, характеризуется и которые выходят из нейронной сети, как в среде маятника, здесь: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57h40 /main.py .
Проблема в том, что я не могу найти ни одной статьи о 2+ непрерывных действиях, использующих градиенты политики (не методы критика актера, которые используют другой подход путем передачи градиента из Q-функции).
Знаете ли вы, как сделать это, используя TRPO для 2 непрерывных действий в среде LunarLander ?
Является ли следующий подход правильным для функции потери градиента политики?
источник