После прочтения достижений Google Deepmind в играх Atari , я пытаюсь понять q-learning и q-network, но я немного запутался. Путаница возникает в концепции дисконтного фактора. Краткое резюме того, что я понимаю. Глубокая сверточная нейронная сеть используется для оценки значения оптимального ожидаемого значения действия. Сеть должна минимизировать функцию потерь где равно где - совокупное значение балла, а
С математической точки зрения является фактором дисконтирования и представляет вероятность достижения состояния из состояния .
Я предполагаю, что сеть действительно научится изменять масштаб соответствии с истинным значением , так почему бы не позволить ?