Начальная загрузка в RL может читаться как «использование одного или нескольких оценочных значений на этапе обновления для одного и того же вида оценочного значения».
В большинстве правил обновления TD вы увидите что-то вроде этого обновления SARSA (0):
Q(s,a)←Q(s,a)+α(Rt+1+γQ(s′,a′)−Q(s,a))
Значение является оценкой истинного значения и также называется целью TD. Это метод начальной загрузки, потому что мы частично используем значение Q для обновления другого значения Q. Существует небольшое количество реальных наблюдаемых данных в форме , немедленной награды за шаг, а также в переходе состояния .Rt+1+γQ(s′,a′)Q(s,a)Rt+1s→s′
Сравните с Монте-Карло, где эквивалентное правило обновления может быть:
Q(s,a)←Q(s,a)+α(Gt−Q(s,a))
Где было общим дисконтированным вознаграждением в момент времени , предполагая в этом обновлении, что оно началось в состоянии , приняв действие , затем следовало текущей политике до конца эпизода. Технически, где - временной шаг для конечного вознаграждения и состояния. Примечательно, что это целевое значение вообще не использует никаких существующих оценок (из других значений Q), оно использует только набор наблюдений (то есть вознаграждений) из окружающей среды. Как таковой, он гарантированно будет несмещенной оценкой истинного значения , так как это технически образец изGttsaGt=∑T−t−1k=0γkRt+k+1TQ ( s , a ) Q ( s , a )Q(s,a)Q(s,a),
Основным недостатком начальной загрузки является то, что она смещена в сторону начальных значений (или ). Это, скорее всего, неправильно, и система обновлений может быть нестабильной в целом из-за слишком большого количества собственных ссылок и недостаточного количества реальных данных - это проблема с обучением вне политики (например, Q-learning) с использованием нейронных сетей.Q(s′,a′)V(s′)
Без начальной загрузки, с использованием более длинных траекторий, вместо этого часто возникает большая дисперсия , что на практике означает, что вам нужно больше выборок, прежде чем сойдутся оценки. Таким образом, несмотря на проблемы с начальной загрузкой, если его можно заставить работать, он может учиться значительно быстрее и часто предпочитается методам Монте-Карло.
Вы можете достичь компромисса между методами на основе выборки Монте-Карло и одношаговыми методами TD, которые загружаются с помощью сочетания результатов из траекторий различной длины. Это называется обучением TD ( )λ , и существует множество специальных методов, таких как SARSA ( ) или Q ( ).λλ
В общем, начальная загрузка в RL означает, что вы обновляете значение, основываясь на некоторых оценках, а не на некоторых точных значениях. Например
Дополнительные обновления оценки политики Монте-Карло:
TD (0) Обновления оценки политики:
В TD (0) возвращение, начинающееся с состояния , оценивается (загружается) то время как в MC мы используем точное возвращение .R t + 1 + γ V ( S t + 1 ) G ts Rt+1+γV(St+1) Gt
источник