Было ли обучение игре DeepMind DQN Atari одновременно?

9

DeepMind заявляет, что их глубокая Q-сеть (DQN) была способна постоянно адаптировать свое поведение во время обучения игре в 49 игр Atari.

Изучив все игры с одной и той же нейронной сетью, мог ли агент играть в них все одновременно на «сверхчеловеческих» уровнях (всякий раз, когда он случайно отображался в одной из игр) или он мог быть хорош только в одной игре за раз, потому что переключение требуется переучиться?

Дион
источник
«После изучения всех игр с одной и той же нейронной сетью». Означает ли это, что одна и та же архитектура NN ИЛИ та же архитектура и один набор весов?
Анкур
@ Ankur, на самом деле, я не уверен - это мое (ограниченное) понимание того, что они использовали одну и ту же архитектуру и не сбрасывали веса между играми.
Дион

Ответы:

2

Переключение требовало переучивания.

Также обратите внимание, что :

Мы используем одинаковую сетевую архитектуру, алгоритм обучения и настройки гиперпараметров во всех семи играх, что показывает, что наш подход достаточно надежен для работы с различными играми без включения информации, специфичной для игры. В то время как мы оценивали наших агентов в реальных и неизмененных играх, мы внесли одно изменение в структуру вознаграждения игр только во время обучения.

а также

сеть превзошла все предыдущие алгоритмы RL в шести из семи игр, в которых мы пытались, и превзошла опытного игрока-человека в трех из них.

Франк Дернонкур
источник
1

Переключение требует переучивания, в сети не было ни одного набора весов, который позволял бы ей хорошо играть во все игры. Это связано с катастрофической проблемой забвения.

Тем не менее, недавняя работа была проделана для преодоления этой проблемы:

«Преодоление катастрофического забвения в нейронных сетях», 2016

Документ: https://arxiv.org/pdf/1612.00796v1.pdf

шухер
источник