Что именно является начальной загрузкой в ​​обучении подкреплению?

23

По-видимому, в обучении с подкреплением метод временной разности (TD) является методом начальной загрузки. С другой стороны, методы Монте-Карло не являются методами начальной загрузки.

Что именно является начальной загрузкой в ​​RL? Что такое метод начальной загрузки в RL?

nbro
источник

Ответы:

22

Начальная загрузка в RL может читаться как «использование одного или нескольких оценочных значений на этапе обновления для одного и того же вида оценочного значения».

В большинстве правил обновления TD вы увидите что-то вроде этого обновления SARSA (0):

Q(s,a)Q(s,a)+α(Rt+1+γQ(s,a)Q(s,a))

Значение является оценкой истинного значения и также называется целью TD. Это метод начальной загрузки, потому что мы частично используем значение Q для обновления другого значения Q. Существует небольшое количество реальных наблюдаемых данных в форме , немедленной награды за шаг, а также в переходе состояния .Rt+1+γQ(s,a)Q(s,a)Rt+1ss

Сравните с Монте-Карло, где эквивалентное правило обновления может быть:

Q(s,a)Q(s,a)+α(GtQ(s,a))

Где было общим дисконтированным вознаграждением в момент времени , предполагая в этом обновлении, что оно началось в состоянии , приняв действие , затем следовало текущей политике до конца эпизода. Технически, где - временной шаг для конечного вознаграждения и состояния. Примечательно, что это целевое значение вообще не использует никаких существующих оценок (из других значений Q), оно использует только набор наблюдений (то есть вознаграждений) из окружающей среды. Как таковой, он гарантированно будет несмещенной оценкой истинного значения , так как это технически образец изGttsaGt=k=0Tt1γkRt+k+1TQ ( s , a ) Q ( s , a )Q(s,a)Q(s,a),

Основным недостатком начальной загрузки является то, что она смещена в сторону начальных значений (или ). Это, скорее всего, неправильно, и система обновлений может быть нестабильной в целом из-за слишком большого количества собственных ссылок и недостаточного количества реальных данных - это проблема с обучением вне политики (например, Q-learning) с использованием нейронных сетей.Q(s,a)V(s)

Без начальной загрузки, с использованием более длинных траекторий, вместо этого часто возникает большая дисперсия , что на практике означает, что вам нужно больше выборок, прежде чем сойдутся оценки. Таким образом, несмотря на проблемы с начальной загрузкой, если его можно заставить работать, он может учиться значительно быстрее и часто предпочитается методам Монте-Карло.

Вы можете достичь компромисса между методами на основе выборки Монте-Карло и одношаговыми методами TD, которые загружаются с помощью сочетания результатов из траекторий различной длины. Это называется обучением TD ( )λ , и существует множество специальных методов, таких как SARSA ( ) или Q ( ).λλ

Нил Слэйтер
источник
1
Это, наверное, должен быть другой вопрос. Однако, если вы хотите ответить, почему именно и оценка для ? Q ( s , a )Rt+1+γQ(s,a)Q(s,a)
1818 года
1
@nbro: потому что при конвергенции (эти уравнения и большинство RL управляются уравнениями Беллмана для MDP). Глядя на реальное событие, которое произошло, начиная с состояний и действия , вы по сути выбираете из этого ожидания. Проблема заключается в том, что значение, которое вы имеете для , вероятно, еще не сходилось, поэтому выборка смещена. Q(s,a)=E[Rt+1+γQ(St+1,At+1)|St=s,At=a]saQ(St+1,At+1)
Нил Слейтер
1
Что мешает использовать методы MC в качестве прожига в фазе, прежде чем перейти к начальной загрузке? Или это может быть рассмотрено как подмножество ? λTD
n1k31t4
1
@ n1k31t4: Ничто не мешает сделать это, и это должен быть правильный подход RL. Это будет отличаться от TD ( ), но мотивировано одной и той же идеей - попытаться получить хорошие функции от обоих алгоритмов. Вам нужно попробовать и сравнить эффективность обучения с TD ( ) - у вас все еще есть гипер-параметр для настройки, который представляет собой количество эпизодов, для которых нужно запустить MC. Более общей версией было бы позволить измениться - начните с и уменьшите его, например, до или любого другого значения, которое кажется наиболее оптимальным. Однако, у этого есть 2 гиперпараметра, скорость распада и цель дляλλλλ=10.4λ
Нил Слэйтер
@NeilSlater, при использовании начальной загрузки, может ли он сходиться? Я не могу понять, почему это так, поскольку Q (s ', a') - это просто произвольное предположение, которое затем искажает оценку для Q (s, a). Кроме того, почему MC имеет высокую дисперсию по сравнению с TD?
д56
4

В общем, начальная загрузка в RL означает, что вы обновляете значение, основываясь на некоторых оценках, а не на некоторых точных значениях. Например

Дополнительные обновления оценки политики Монте-Карло:

V(St)=V(St)+α(GtV(St))

TD (0) Обновления оценки политики:

V(St)=V(St)+α(Rt+1+γV(St+1)V(St))

В TD (0) возвращение, начинающееся с состояния , оценивается (загружается) то время как в MC мы используем точное возвращение .R t + 1 + γ V ( S t + 1 ) G tsRt+1+γV(St+1) Gt

plopd
источник