Вопросы с тегом «reinforcement-learning»

139
Как обучить искусственную нейронную сеть игре в Diablo 2 с помощью визуального ввода?

В настоящее время я пытаюсь получить ИНС для игры в видеоигру, и я надеялся получить некоторую помощь от замечательного сообщества здесь. Я остановился на Diablo 2. Таким образом, игра ведется в реальном времени с изометрической точки зрения, когда игрок управляет одним аватаром, на котором...

94
В чем разница между итерацией значения и итерацией политики?

В обучении с подкреплением, в чем разница между итерации политики и значение итерации ? Насколько я понимаю, при итерации значений вы используете уравнение Беллмана для поиска оптимальной политики, тогда как при итерации политики вы случайным образом выбираете политику π и находите вознаграждение...

19
Понимание получения градиентной политики

Я пытаюсь воссоздать очень простой пример Policy Gradient из исходного ресурса блога Andrej Karpathy . В этой статье вы найдете пример с CartPole и Policy Gradient со списком веса и активацией Softmax. Вот мой воссозданный и очень простой пример градиента политики CartPole, который отлично работает...

10
TypeError: len плохо определено для символических тензоров. (Activation_3 / Identity: 0) Пожалуйста, вызовите `x.shape`, а не` len (x) `для получения информации о форме

Я пытаюсь реализовать модель DQL в одной игре openAI. Но это дает мне следующую ошибку. TypeError: len плохо определено для символических тензоров. (активация_3 / идентификатор: 0) Пожалуйста, звоните, x.shapeа не len(x) для получения информации о форме. Создание спортивной среды: ENV_NAME =...