В робототехнике, метод обучения подкрепления используется для поиска шаблона управления для робота. К сожалению, большинство методов градиента политики являются статистически необъективными, что может привести робота к небезопасной ситуации, см. Стр. 2 в публикации «Ян Петерс и Штефан Шааль: Обучение усилению моторных навыков с помощью градиентов политики, 2008».
При моторном примитивном обучении можно преодолеть проблему, потому что оптимизация параметров градиента политики направляет шаги обучения в цель.
цитата: «Если оценка градиента несмещена, а показатели обучения соответствуют сумме (a) = 0, процесс обучения гарантированно сойдет по крайней мере до локального минимума [...]. Поэтому нам нужно оценивать градиент политики только по сгенерированным данным. во время выполнения задачи. »(Страница 4 того же документа)
В домашней задаче для задачи 1 класса Berkeley RL вам предлагается показать, что градиент политики по-прежнему беспристрастен, если вычтенная базовая линия является функцией состояния на временном шаге t.
Я пытаюсь понять, каким может быть первый шаг такого доказательства. Может ли кто-нибудь указать мне правильное направление? Моя первоначальная мысль состояла в том, чтобы каким-то образом использовать закон полного ожидания, чтобы сделать ожидание b (st) условным для T, но я не уверен. Заранее спасибо :)
источник
Ответы:
Используя закон повторных ожиданий, получаем:
написано с интегралами и перемещая градиент внутри (линейность), вы получите
источник
Похоже, что домашняя работа должна была быть выполнена за два дня до написания этого ответа, но в случае, если она по-прежнему актуальна, соответствующие примечания к классу (которые были бы полезны, если бы содержались в вопросе вместе с домашней работой) здесь .
Это упражнение является подготовкой к следующему этапу домашней работы и основано только на обзоре CS189, курса Burkeley «Введение в машинное обучение», который не содержит Закон Полных Ожиданий в своих программах или заметках к занятиям.
Вся соответствующая информация находится в ссылке выше для заметок класса и требует только промежуточной алгебры.
источник