Сайт искусственного интеллекта определяет обучение вне политики и вне политики следующим образом:
«Учащийся вне политики изучает значение оптимальной политики независимо от действий агента. Q-learning - учащийся вне политики. Учащийся вне политики изучает значение политики, проводимой агентом, включая этапы исследования «.
Я хотел бы попросить вашего разъяснения по этому поводу, потому что они, кажется, не имеют никакого значения для меня. Оба определения кажутся идентичными. На самом деле я понял, что это моделирование и обучение на основе моделей, и я не знаю, имеют ли они какое-либо отношение к рассматриваемым.
Как это возможно, что оптимальная политика изучается независимо от действий агента? Не изучена ли политика, когда агент выполняет действия?
Ответы:
Прежде всего, нет причины, по которой агент должен совершать жадные действия ; Агенты могут исследовать или они могут следовать опциям . Это не то, что отделяет политику вне обучения.
Причина, по которой Q-learning не является политикой, заключается в том, что оно обновляет свои Q-значения, используя Q-значение следующего состояния и жадного действия . Другими словами, он оценивает доход (общее дисконтированное будущее вознаграждение) для пар «государство-действие», предполагая, что соблюдалась жадная политика, несмотря на то, что она не следует жадной политике.s′ a′
Причина , по которой Sarsa на политике , является то , что она обновляет Q-значения с использованием Q-значения следующего состояния и в текущей политике в действие . Он оценивает доходность для пар состояние-действие, предполагая, что текущая политика продолжает соблюдаться.s′ a′′
Различие исчезает, если текущая политика является жадной политикой. Однако такой агент не был бы хорош, поскольку он никогда не исследует.
Вы смотрели на книгу, доступную бесплатно онлайн? Ричард С. Саттон и Эндрю Дж. Барто. Усиление обучения: введение. Второе издание, MIT Press, Кембридж, Массачусетс, 2018.
источник
Методы на основе политики оценивают ценность политики, используя ее для контроля.
В внеполитических методах политика, используемая для генерации поведения, называемая политикой поведения , может быть не связана с политикой, которая оценивается и улучшается, называемой политикой оценки .
Преимущество этого разделения состоит в том, что политика оценки может быть детерминированной (например, жадной), в то время как политика поведения может продолжать выборку всех возможных действий.
Для получения дополнительной информации см. Разделы 5.4 и 5.6 книги « Обучение усилению: Введение » Барто и Саттона, первое издание.
источник
Разница между методами «вне политики» и «по политике» заключается в том, что при первом использовании вам не нужно следовать какой-либо конкретной политике, ваш агент может вести себя даже случайным образом, и, несмотря на это, методы вне политики все равно могут находить оптимальную политику. С другой стороны, методы политики зависят от используемой политики. В случае Q-Learning, который вне политики, он найдет оптимальную политику, независимую от политики, используемой во время исследования, однако это верно только в том случае, если вы посещаете различные состояния достаточно времени. Вы можете найти в оригинальной статье Уоткинса фактическое доказательство, которое показывает это очень хорошее свойство Q-Learning. Однако существует компромисс, и это вне политики, методы, как правило, медленнее, чем внутриполитические методы. Здесь ссылка с другим интересным резюме свойств обоих типов методов
источник
Прежде всего, что на самом деле означает политика (обозначаемая )? Политика определяет действие , которое выполняется в состоянии (или, точнее, - это вероятность того, что действие выполняется в состоянии ).π
a s π a s
Во-вторых, какие у нас виды обучения?Q(s,a) a s
π π(a|s)
1. Оценить функцию : предсказать сумму будущих дисконтированных вознаграждений, где - это действие, а - это состояние. 2. Найдите (на самом деле, ), которая приносит максимальное вознаграждение.
Вернуться к исходному вопросу. Обучение вне политики и вне политики связано только с первой задачей: оценка .Q(s,a)
Разница заключается в следующем:Q(s,a) π
Q(s,a)
В на политике обучения на функция познается от действий, мы взяли , используя нашу текущую политику . При обучении вне политики функция изучается из различных действий (например, случайных действий). Нам даже не нужна политика вообще!
Это функция обновления для алгоритма SARSA по политике : где - это действие, которое было предпринято в соответствии с политикой .Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a)) a′ π
Сравните это с функцией обновления для алгоритма Q-обучения вне политики : , где - все действия, которые были проверены в состоянии .Q(s,a)←Q(s,a)+α(r+γmaxa′Q(s′,a′)−Q(s,a)) a′ s′
источник
Из книги Саттона: «Подход на основе политики в предыдущем разделе на самом деле является компромиссом: он изучает значения действий не для оптимальной политики, а для почти оптимальной политики, которая все еще исследуется. Более простой подход заключается в использовании двух политик. тот, о котором узнают, и который становится оптимальной политикой, и тот, который является более исследовательским и используется для генерации поведения. Изучаемая политика называется целевой политикой, а политика, используемая для генерации поведения, называется политикой поведения. В этом случае мы говорим, что обучение на основе данных «o↵» является целевой политикой, а весь процесс называется обучением o policy-policy ».
источник