Почему базовый уровень зависит от состояния в какой-то момент времени непредвзято?

9

В робототехнике, метод обучения подкрепления используется для поиска шаблона управления для робота. К сожалению, большинство методов градиента политики являются статистически необъективными, что может привести робота к небезопасной ситуации, см. Стр. 2 в публикации «Ян Петерс и Штефан Шааль: Обучение усилению моторных навыков с помощью градиентов политики, 2008».

При моторном примитивном обучении можно преодолеть проблему, потому что оптимизация параметров градиента политики направляет шаги обучения в цель.

цитата: «Если оценка градиента несмещена, а показатели обучения соответствуют сумме (a) = 0, процесс обучения гарантированно сойдет по крайней мере до локального минимума [...]. Поэтому нам нужно оценивать градиент политики только по сгенерированным данным. во время выполнения задачи. »(Страница 4 того же документа)

В домашней задаче для задачи 1 класса Berkeley RL вам предлагается показать, что градиент политики по-прежнему беспристрастен, если вычтенная базовая линия является функцией состояния на временном шаге t.

θt=1TE(st,at)p(st,at)[b(st)]=0

Я пытаюсь понять, каким может быть первый шаг такого доказательства. Может ли кто-нибудь указать мне правильное направление? Моя первоначальная мысль состояла в том, чтобы каким-то образом использовать закон полного ожидания, чтобы сделать ожидание b (st) условным для T, но я не уверен. Заранее спасибо :)

ссылка на оригинальный png уравнения

Лаура С
источник
Добро пожаловать в SE: AI! (Я позволил себе преобразовать уравнение в MathJax. Оригинал .png связан внизу.)
DukeZhou
2
На самом деле у меня не так много времени, чтобы записать точные уравнения и отформатировать их (возможно, позже, если на них еще нет ответа) с помощью LaTeX, но вот подсказка. Вы хотите, чтобы сумма не зависела от политики, поэтому производная была бы равна 0. Поэтому вы как-то пытаетесь выразить вещи с помощью политики p (s, a). Ответ также можно найти в книге Саттона RL Intro в главе «Градиент политики».
Хай Нгуен
1
Большое спасибо! Я воспользуюсь этой подсказкой, чтобы начать, а также поблагодарить вас за то, что вы рассказали мне о том, что находитесь в Саттоне Я читаю эту книгу, и она великолепна!
Лора C
@LauraC, если вы найдете ответ раньше всех, пожалуйста, вернитесь и
опубликуйте
Я добавил контекстную информацию для вопроса.
Мануэль Родригес

Ответы:

7

Используя закон повторных ожиданий, получаем:

θt=1TE(st,at)p(st,at)[b(st)]=θt=1TEstp(st)[Eatπθ(at|st)[b(st)]]=

написано с интегралами и перемещая градиент внутри (линейность), вы получите

=t=1Tstp(st)(atθb(st)πθ(at|st)dat)dst=

θb(st)at

=t=1Tstp(st)b(st)θ(atπθ(at|st)dat)dst=

πθ(at|st)atst1

=t=1Tstp(st)b(st)θ1dst=

θ1=0

Андрей Полманн
источник
1

Похоже, что домашняя работа должна была быть выполнена за два дня до написания этого ответа, но в случае, если она по-прежнему актуальна, соответствующие примечания к классу (которые были бы полезны, если бы содержались в вопросе вместе с домашней работой) здесь .

Eτpθ(τ)

t=1TEτpθ(τ)[θlogπθ(at|st)(b(st))]=0

πθ(at|st)

Это упражнение является подготовкой к следующему этапу домашней работы и основано только на обзоре CS189, курса Burkeley «Введение в машинное обучение», который не содержит Закон Полных Ожиданий в своих программах или заметках к занятиям.

Вся соответствующая информация находится в ссылке выше для заметок класса и требует только промежуточной алгебры.

Дуглас Дасеко
источник