В чем разница между безмодельным и основанным на моделях обучением с подкреплением?

29

В чем разница между безмодельным и основанным на моделях обучением с подкреплением?

Мне кажется, что любой учащийся без модели, обучающийся методом проб и ошибок, может быть переименован в основанный на модели. В таком случае, когда ученики без моделей будут уместны?

Vin
источник
Смотрите также этот ответ: qr.ae/TUtHbv .
августа
Как вы имеете в виду, что вы могли бы переосмыслить ученика без модели в качестве модели?
Здравствуйте, до свидания,
Вот несокращенная версия ссылки nbro: В чем разница между основанным на модели и
JRH

Ответы:

14

Основанное на моделях обучение с подкреплением заставляет агента пытаться понять мир и создать модель для его представления. Здесь модель пытается захватить 2 функции, функцию перехода от состояний T и функция вознаграждения R . Из этой модели агент имеет ссылку и может планировать соответственно.

Однако нет необходимости изучать модель, и агент может вместо этого изучать политику напрямую, используя такие алгоритмы, как Q-learning или градиент политики.

Простая проверка, чтобы увидеть, является ли алгоритм RL на основе модели или без модели:

Если после обучения агент может делать прогнозы о том, каким будет следующее состояние и награда, прежде чем он выполнит каждое действие, это алгоритм RL на основе модели.

Если это невозможно, то это алгоритм без модели.

Яден Травник
источник
2
по вашим словам, «нет необходимости изучать модель», и мой вопрос таков: зачем кому-то подходить на основе модели?
Vin
4
Один большой пример, который я могу вспомнить, это когда вы хотите, чтобы агент узнал о его окружении, не оптимизируя его. Это является частью проблемы непрерывного обучения, вам нужно построить внутреннюю модель типа «Я бью стены, когда мой датчик расстояния читает стену близко», тогда этот агент может обобщить эту информацию для нескольких задач, если они возникли.
Джейден Травник
2
спасибо @Jaden Травник. Я понимаю, почему было бы полезно узнать представление об окружающей среде («я бью стены, когда мое расстояние показывает, что стена близка»), не решая какую-либо задачу (например, переход на кухню). но почему это должно считаться безмодельным RL , а не ванильной учебной задачей?
Vin
2
Это не будет контролируемым обучением, потому что нет никаких помеченных данных. Агент не знал, что означают сигналы, поэтому не мог отличить датчик расстояния от термометра. Агент изучает предсказания сигналов, основанные на других сигналах, что само по себе является моделью его мира.
Джейден Травник
2
с помощью подхода, основанного на модели, агент учится предсказывать следующее состояние, согласно вашему первоначальному объяснению. это делается путем изучения <x, y>, где x - это (s1, действие), а y - (s2, награда). извините, если я неправильно понимаю, но разве это не контролируемое обучение?
Vin
12

В чем разница между безмодельным и основанным на моделях обучением с подкреплением?

В обучении с подкреплением термины «на основе модели» и «без модели» не относятся к использованию нейронной сети или другой статистической модели обучения для прогнозирования значений или даже для прогнозирования следующего состояния (хотя последнее может использоваться как часть алгоритма, основанного на модели, и будет называться «моделью» независимо от того, является ли алгоритм основанным на модели или не имеет модели).

Вместо этого термин относится исключительно к тому, использует ли агент во время обучения или действия предсказания реакции среды. Агент может использовать один прогноз из модели следующего вознаграждения и следующего состояния (образца), или он может запросить у модели ожидаемое следующее вознаграждение или полное распределение следующих состояний и следующих вознаграждений. Эти предсказания могут быть предоставлены полностью вне обучающего агента - например, с помощью компьютерного кода, который понимает правила игры в кости или настольной игры. Или они могут быть изучены агентом, и в этом случае они будут приблизительными.

Тот факт, что реализована модель среды, не означает, что агент RL является «основанным на модели». Чтобы квалифицироваться как «основанный на модели», алгоритмы обучения должны явно ссылаться на модель:

  • Алгоритмы, основанные исключительно на опыте, такие как Монте-Карло Контроль, SARSA, Q-learning, Actor-Critic, являются «безмодельными» алгоритмами RL. Они полагаются на реальные образцы из окружающей среды и никогда не используют сгенерированные прогнозы следующего состояния и следующего вознаграждения для изменения поведения (хотя они могут выбирать из опыта, который близок к тому, чтобы быть моделью).

  • Архетипическими алгоритмами, основанными на модели, являются динамическое программирование (итерация политики и итерация значения) - все они используют предсказания или распределения модели следующего состояния и вознаграждения для расчета оптимальных действий. В частности, в динамическом программировании модель должна предоставлять вероятности перехода состояний и ожидаемое вознаграждение от любой пары действий состояния. Обратите внимание, что это редко изучаемая модель.

  • Базовое обучение TD, использующее только значения состояний, также должно основываться на модели, чтобы работать в качестве системы управления и выбирать действия. Чтобы выбрать лучшее действие, ему нужно запросить модель, которая предсказывает, что произойдет с каждым действием, и реализовать политику, такую ​​как π(s)знак равноArgmaxaΣs',рп(s',р|s,a)(р+v(s')) гдеп(s',р|s,a) - вероятность получения наградыр и следующего состоянияs' при выполнении действияa в состоянииs . Эта функцияп(s',р|s,a) ,существумодель.

В литературе по RL проводится различие между «моделью» как моделью среды для «модельно-ориентированного» и «безмодельного» обучения и использованием статистических учеников, таких как нейронные сети.

В RL нейронные сети часто используются для изучения и обобщения функций значений, таких как значение Q, которое предсказывает общий доход (сумму дисконтированных вознаграждений), учитывая пару состояния и действия. Такую обученную нейронную сеть часто называют «моделью», например, в контролируемом обучении. Однако в литературе по RL вы увидите термин «аппроксиматор функции», используемый для такой сети, чтобы избежать двусмысленности.

Мне кажется, что любой учащийся без модели, обучающийся методом проб и ошибок, может быть переименован в основанный на модели.

Я думаю, что здесь вы используете общее понимание слова «модель» для включения любой структуры, которая делает полезные прогнозы. Это относится, например, к таблице значений Q в SARSA.

Однако, как объяснено выше, этот термин не используется в RL. Таким образом, хотя ваше понимание того, что RL создает полезные внутренние представления, является правильным, вы технически не правы в том, что это можно использовать для перестановки между «безмодельным» и «основанным на модели», поскольку эти термины имеют очень специфическое значение в RL ,

В таком случае, когда ученики без моделей будут уместны?

Как правило, при современном состоянии дел в RL, если у вас нет точной модели, предоставленной как часть определения проблемы, подходы, не связанные с моделью, часто превосходят.

Агенты, которые создают прогностические модели среды, проявляют большой интерес, и их использование в качестве «побочного эффекта» (хотя он и остается алгоритмом без моделирования) все еще может быть полезным - это может упорядочить нейронную сеть или помочь обнаружить ключевые прогностические факторы. функции, которые также могут быть использованы в политике или сети ценностей. Однако агенты на основе моделей, которые изучают свои собственные модели для планирования, имеют проблему, заключающуюся в том, что неточности в этих моделях могут вызывать нестабильность (неточности увеличиваются по мере того, как агент смотрит в будущее). Некоторые многообещающие достижения осуществляются с использованием агентов и / или механизмов, основанных на воображении, для принятия решения, когда и насколько доверять изученной модели во время планирования.

Прямо сейчас (в 2018 году), если у вас есть реальная проблема в среде без явно известной модели с самого начала, тогда самым безопасным вариантом будет использование подхода без модели, такого как DQN или A3C. Это может измениться, поскольку поле движется быстро, и новые более сложные архитектуры вполне могут стать нормой через несколько лет.

Нил Слэйтер
источник
1
Небольшое исправление, обычно термины «на основе модели» или «без модели», не используются для алгоритмов планирования, таких как MCTS. Он используется только для классификации алгоритмов обучения.
Мигель Сарайва
@MiguelSaraiva: Я не уверен на 100% в этом, но удалил ссылку на MCTS. Из интереса, где бы вы разместили DynaQ относительно ограничения использования терминов? Я думаю, что становится сложным, когда все алгоритмы разделяют такое общее представление о модели MDP и улучшении политик, чтобы определить границы между планированием и обучением.
Нил Слэйтер
Я могу ошибаться, я новичок в этой области. Я просто помню, как учитель из области делал этот комментарий после того, как я сделал то же самое замечание.
Мигель Сарайва
5

ass'р

Основная цель агента - собрать наибольшее количество вознаграждений «в долгосрочной перспективе». Для этого агент должен найти оптимальную политику (грубо говоря, оптимальную стратегию поведения в среде). В общем, политика - это функция, которая с учетом текущего состояния среды выводит действие (или распределение вероятностей по действиям, если политика является стохастической ) для выполнения в среде. Таким образом, политику можно рассматривать как «стратегию», используемую агентом для поведения в этой среде. Оптимальная политика (для данной среды) - это политика, которая, если ее придерживаться, заставит агента получить наибольшее вознаграждение в долгосрочной перспективе (что является целью агента). Таким образом, в RL мы заинтересованы в поиске оптимальной политики.

Среда может быть детерминированной (то есть, примерно, одно и то же действие в том же состоянии приводит к тому же следующему состоянию для всех временных шагов) или стохастической (или недетерминированной), то есть если агент выполняет действие в В определенном состоянии результирующее следующее состояние среды не всегда может быть одинаковым: существует вероятность того, что это будет определенное состояние или другое. Конечно, эти неопределенности усложнят задачу поиска оптимальной политики.

В RL проблема часто математически формулируется как марковский процесс принятия решений (MDP). MDP - это способ представления «динамики» среды, то есть того, как среда будет реагировать на возможные действия, которые агент может предпринять в данном состоянии. Точнее, MDP оснащен функцией перехода (или «моделью перехода»), которая является функцией, которая, учитывая текущее состояние среды и действие (которое может предпринять агент), выдает вероятность перехода к любому из следующих штатов. Функция вознаграждениятакже связан с MDP. Интуитивно понятно, что функция вознаграждения выводит вознаграждение, учитывая текущее состояние среды (и, возможно, действие, предпринятое агентом, и следующее состояние среды). В совокупности функции перехода и вознаграждения часто называют моделью среды. В заключение, MDP - это проблема, а решение проблемы - это политика. Кроме того, «динамика» среды определяется функциями перехода и вознаграждения (то есть «моделью»).

Однако у нас часто нет MDP, то есть у нас нет функций перехода и вознаграждения (MDP, связанных с окружающей средой). Следовательно, мы не можем оценить политику по MDP, потому что она неизвестна. Обратите внимание, что, в общем, если бы у нас были функции перехода и вознаграждения MDP, связанные с окружающей средой, мы могли бы использовать их и получить оптимальную политику (используя алгоритмы динамического программирования).

В отсутствие этих функций (то есть, когда MDP неизвестно), чтобы оценить оптимальную политику, агент должен взаимодействовать с окружающей средой и наблюдать за реакцией среды. Это часто упоминается как «проблема обучения с подкреплением», потому что агент должен будет оценивать политику, укрепляя свои убеждения относительно динамики окружающей среды. Со временем агент начинает понимать, как среда реагирует на его действия, и поэтому он может начать оценивать оптимальную политику. Таким образом, в задаче RL агент оценивает оптимальную политику поведения в неизвестной (или частично известной) среде, взаимодействуя с ней (используя метод проб и ошибок).

В этом контексте на основе моделиАлгоритм - это алгоритм, который использует функцию перехода (и функцию вознаграждения) для оценки оптимальной политики. Агент может иметь доступ только к приближению функции перехода и функций вознаграждения, которые могут быть изучены агентом во время его взаимодействия со средой или могут быть переданы агенту (например, другим агентом). В общем, в алгоритме на основе модели агент может потенциально прогнозировать динамику среды (во время или после фазы обучения), поскольку у него есть оценка функции перехода (и функции вознаграждения). Однако обратите внимание, что функции перехода и вознаграждения, которые агент использует для улучшения своей оценки оптимальной политики, могут быть лишь приближениями к «истинным» функциям. Следовательно, оптимальная политика никогда не может быть найдена (из-за этих приближений).

Безмодельный алгоритм представляет собой алгоритм , который оценивает оптимальную политику без использования или оценки динамики (переход и вознаграждения функций) окружающей среды. На практике алгоритм без модели оценивает «функцию стоимости» или «политику» непосредственно из опыта (то есть взаимодействия между агентом и средой), не используя ни функцию перехода, ни функцию вознаграждения. Функция значения может рассматриваться как функция, которая оценивает состояние (или действие, предпринимаемое в состоянии) для всех состояний. Из этой функции значения может быть получена политика.

На практике один из способов провести различие между алгоритмами на основе модели или без модели - это посмотреть на алгоритмы и посмотреть, используют ли они функцию перехода или вознаграждения.

Например, давайте посмотрим на основное правило обновления в алгоритме Q-learning :

Q(ST,AT)Q(ST,AT)+α(рT+1+γМаксимумaQ(ST+1,a)-Q(ST,AT))

рT+1

Теперь давайте посмотрим на основное правило обновления алгоритма улучшения политики :

Q(s,a)Σs'S,ррп(s',р|s,a)(р+γВ(s'))

п(s',р|s,a)

nbro
источник
2

Без модели RL

В RL без модели агент не имеет доступа к модели среды. Под средой я подразумеваю функцию, которая предсказывает переход состояния и вознаграждение.

На момент написания статьи безмодельные методы стали более популярными и широко исследовались.

Основанный на модели RL

В RL на основе модели агент имеет доступ к модели среды.

Основным преимуществом является то, что это позволяет агенту планировать заранее, думая заранее. Агенты перегоняют результаты планирования на заранее продуманную политику. Известным примером модели на основе RL является AlphaZero .

Основным недостатком является то, что зачастую достоверное представление об окружающей среде обычно недоступно.


Ниже приведена неисчерпывающая таксономия алгоритмов RL, которая может помочь вам лучше визуализировать ландшафт RL.

введите описание изображения здесь

Rrz0
источник
1

Согласно OpenAI - разновидности алгоритмов RL , алгоритмы, которые используют модель среды, то есть функцию, которая предсказывает переходы состояний и вознаграждения, называются модельно-ориентированными методами, а те, которые не называются безмодельными . Эта модель может быть либо дана агенту, либо изучена агентом.

Использование модели позволяет агенту планировать, думая заранее, видя, что произойдет для ряда возможных вариантов, и явно выбирая между его вариантами. Это может быть полезно, когда сталкиваются с проблемами, требующими более долгосрочного мышления. Одним из способов планирования является использование некоторого вида поиска по дереву, например, поиска по дереву Монте-Карло (MCTS), или - что, я подозреваю, также можно использовать - варианты быстро исследуемого случайного дерева (RRT). Смотрите, например, Агенты, которые представляют и планируют .

Затем агент может перевести результаты планирования заранее в изученную политику - это называется экспертной итерацией.

Модель также можно использовать для создания моделируемой или «воображаемой» среды, в которой состояние обновляется с помощью модели, и заставить агента учиться в этой среде, например в мировых моделях .

Во многих сценариях реального мира агенту не доступна базовая модель среды. Если агент хочет использовать модель в этом случае, он должен изучить модель, которая может быть сложной по нескольким причинам.

Однако существуют случаи, когда агент использует модель, которая уже известна и, следовательно, не должна изучать модель, например, в AlphaZero , где модель представлена ​​в форме правил игры.

Привет пока
источник
1

Хотя есть несколько хороших ответов, я хочу добавить этот абзац из « Обучение подкреплению: введение» , стр. 303, для более психологического взгляда на разницу.

Различие между безмодельными и основанными на моделях алгоритмами обучения с подкреплением соответствует различию, которое психологи проводят между привычным и целенаправленным контролем усвоенных поведенческих паттернов. Привычки - это паттерны поведения, которые запускаются соответствующими стимулами и затем выполняются более или менее автоматически. Целенаправленное поведение, согласно тому, как психологи используют эту фразу, является целенаправленным в том смысле, что оно контролируется знанием ценности целей и взаимосвязи между действиями и их последствиями. Иногда говорят, что привычки контролируются предшествующими раздражителями, тогда как целенаправленное поведение, как говорят, контролируется его последствиями (Dickinson, 1980, 1985). Целевое управление имеет то преимущество, что оно может быстро изменить поведение животного, когда среда меняет свой способ реагирования на действия животного. Хотя привычное поведение быстро реагирует на воздействие привычной среды, оно не может быстро адаптироваться к изменениям в окружающей среде.

Это продолжает идти оттуда, и есть хороший пример впоследствии.

Я думаю, что главное, что не всегда объяснялось в других ответах, заключается в том, что при подходе без модели вам все еще нужна какая-то среда, чтобы сказать вам, какая награда связана с вашими действиями. Большая разница в том, что вам НЕ нужно хранить какую-либо информацию о модели. Вы предоставляете среде свое выбранное действие, обновляете свою предполагаемую политику и забываете об этом. С другой стороны, в модельных подходах вам либо нужно знать историю переходов состояний, как в динамическом программировании, либо у вас должна быть возможность рассчитать все возможные последующие состояния и связанные награды из текущего состояния.

Мигель Сарайва
источник