Мне кажется, что функция может быть легко выражена функцией и, таким образом, функция кажется мне излишней. Тем не менее, я новичок в изучении подкрепления, так что, я думаю, я ошибся
Определения
Q- и V-обучение находятся в контексте Марковских процессов принятия решений . MDP представляет собой 5-кортеж с
- - это набор состояний (обычно конечный)
- - это набор действий (обычно конечный)
- - вероятность перехода из состояния в состояние с действием .
- - это немедленная награда после перехода из состояния в состояние действием . (Мне кажется, что обычно это только ).
- называется коэффициентом дисконтирования и определяет, сосредоточен ли кто-то на немедленном вознаграждении ( ), общем вознаграждении ( ) или некотором компромиссе.
Политика , в соответствии с подкреплением: Введение Саттон и Барто функция (это может быть вероятностным).
Согласно слайдам Марио Мартинса , функция имеет вид
Мои мысли
Функция устанавливает ожидаемое общее значение (а не вознаграждение!) Состояния соответствии с политикой .
Функция устанавливает значение состояния и действия соответствии с политикой .
Это означает, что
Правильно? Так почему же у нас вообще есть функция значения? (Думаю, я что-то перепутал)
источник
Вы правильно функция дает вам значение состояния, а - значение действия в состоянии (следуя заданной политике ). Я нашел наиболее ясное объяснение Q-обучения и его работы в книге Тома Митчелла «Машинное обучение» (1997), гл. 13, который можно загрузить. определяется как сумма бесконечного ряда, но здесь это не важно. Важно то, что функция определяется какV Q π V Q
Поначалу это может показаться странной рекурсией, поскольку она выражает значение Q действия в текущем состоянии в терминах наилучшего значения Q состояния- преемника , но имеет смысл, когда вы смотрите на то, как его использует процесс резервного копирования: Исследование процесс останавливается, когда он достигает целевого состояния и собирает вознаграждение, которое становится значением Q этого заключительного перехода. Теперь в последующем обучающем эпизоде, когда процесс исследования достигает этого состояния предшественника, процесс резервного копирования использует указанное выше равенство для обновления текущего значения Q состояния предшественника. В следующий раз егопосещается предшественник, значение Q состояния которого обновляется, и так далее в обратном направлении (книга Митчелла описывает более эффективный способ сделать это, сохранив все вычисления и воспроизведя их позже). При условии, что каждое состояние посещается бесконечно часто, этот процесс в конечном итоге вычисляет оптимальный Q
Иногда вы увидите скорость обучения применяемую для контроля того, сколько Q действительно обновляется: Теперь обратите внимание , что обновление до величины Q имеет в зависимости от текущего значения Q. Книга Митчелла также объясняет, почему это так и почему вам нужна : ее для стохастических MDP. Без каждый раз, когда предпринималась попытка создания пары «состояние-действие», получалось бы другое вознаграждение, поэтому функция Q ^ отскакивала бы повсюду и не сходилась. существует, так как новые знания принимаются только частично.α Q(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a)) αααααα α α α устанавливается так, чтобы ток (в основном случайные значения) Q был менее влиятельным. уменьшается по мере обучения, поэтому новые обновления оказывают все меньшее и меньшее влияние, и теперь Q обучение сходитсяα
источник
Вот более подробное объяснение связи между значением состояния и значением действия в ответе Аарона. Давайте сначала взглянем на определения функции-значения и функции-значения в разделе политики : где - возврат в момент времени . Отношение между этими двумя функциями значения может быть получено какπ vπ(s)=E[Gt|St=s]qπ(s,a)=E[Gt|St=s,At=a] Gt=∑∞k=0γkRt+k+1 t vπ(s)=E[Gt|St=s]=∑gtp(gt|St=s)gt=∑gt∑ap(gt,a|St=s)gt=∑ap(a|St=s)∑gtp(gt|St=s,At=a)gt=∑ap(a|St=s)E[Gt|St=s,At=a]=∑ap(a|St=s)qπ(s,a)
Вышеприведенное уравнение важно. Он описывает отношения между двумя фундаментальными ценностными функциями в обучении с подкреплением. Это действительно для любой политики. Более того, если у нас есть детерминированная политика, то . Надеюсь, это полезно для вас. (чтобы узнать больше об уравнении оптимальности Беллмана https: //stats.stackexchange.vπ(s)=qπ(s,π(s)) )
источник
Функция значения - это абстрактная формулировка полезности. И Q-функция используется для алгоритма Q-обучения.
источник