Я хочу создать ИИ, который может играть пять в ряд / гомоку. Как я уже упоминал в названии, я хочу использовать для этого обучение с подкреплением. Я использую метод градиента политики , а именно REINFORCE, с базовым уровнем. Для приближения значения и функции политики я использую нейронную сеть ....
20
Как обрабатывать недопустимые движения в обучении подкреплению?