В чем разница между эпизодом и эпохой в изучении глубокого Q?

14

Я пытаюсь понять знаменитую статью «Игра Atari с глубоким обучением подкреплению» ( pdf ). Я неясный о различии между эпохой и эпизодом . В алгоритме внешний цикл заканчивается эпизодами , а на рисунке ось х обозначена как эпоха . В контексте обучения подкреплению мне не ясно, что означает эпоха. Является ли эпоха внешним циклом вокруг цикла эпизодов? 12

введите описание изображения здесь

введите описание изображения здесь

ОБЪЯВЛЕНИЕ
источник
1
Итак ... сколько эпизодов составляют эпоху?
Lewen

Ответы:

10
  • один эпизод = один - последовательность состояний, действий и наград, которая заканчивается терминальным состоянием. Например, игра всей игры может рассматриваться как один эпизод, состояние терминала достигается, когда один игрок проигрывает / выигрывает / ничья. Иногда, кто-то может предпочесть определить один эпизод как несколько игр ( пример : «каждый эпизод - это несколько десятков игр, потому что количество игр возрастает до 21 для каждого игрока»).
  • одна эпоха = один прямой проход и один обратный проход всех обучающих примеров в терминологии нейронной сети.

В упомянутой вами статье они кажутся более гибкими в отношении значения эпохи, поскольку они просто определяют одну эпоху как определенное количество обновлений веса. Поэтому вы можете рассматривать одну эпоху как внешнюю петлю вокруг цикла эпизодов, как вы упоминали в вопросе.

Франк Дернонкур
источник