Как можно применять градиенты политики в случае нескольких непрерывных действий?

Оптимизация политики в доверенных регионах (TRPO) и Proximal Policy Optimization (PPO) - это два передовых алгоритма градиента политики. При использовании одного непрерывного действия обычно вы используете некоторое распределение вероятностей (например, гауссово) для функции потерь. Черновая...