Почему Q-Learning использует эпсилон-жадный во время тестирования?

В статье DeepMind о Q-Learning для видеоигр Atari ( здесь ) они используют эпсилон-жадный метод для исследования во время обучения. Это означает, что когда действие выбирается в процессе обучения, оно выбирается либо как действие с наибольшим значением q, либо как случайное действие. Выбор между...