Почему ставка дисконта в алгоритме REINFORCE появляется дважды?
Я читал книгу « Усиленное обучение: введение» Ричарда С. Саттона и Эндрю Г. Барто (полный проект, 5 ноября 2017 г.). На странице 271 представлен псевдокод для эпизодического метода градиента политики Монте-Карло. Глядя на этот псевдокод, я не могу понять, почему кажется, что ставка дисконта...