В настоящее время я ищу обзор алгоритмов обучения подкреплению и, возможно, их классификацию. Но рядом с Sarsa и Q-Learning + Deep Q-Learning я не могу найти ни одного популярного алгоритма.
Википедия дает мне обзор различных общих методов обучения с подкреплением, но нет ссылок на различные алгоритмы, реализующие эти методы.
Но, возможно, я путаю общие подходы и алгоритмы, и в этой области нет реальной классификации, как в других областях машинного обучения. Может кто-нибудь дать мне краткое введение или только справку, где я мог бы начать знакомство с различными подходами, различиями между ними и примерами алгоритмов, которые реализуют этот подход?
reinforcement-learning
q-learning
greece57
источник
источник
Ответы:
Здесь есть хороший обзорный документ .
Эти методы включают в себя популярный алгоритм REINFORCE, который является алгоритмом градиентов политики. TRPO и GAE являются похожими алгоритмами градиентов политики.
Существует множество других вариантов градиентов политики, и их можно сочетать с Q-learning в среде актера-критика. Алгоритм A3C - асинхронное преимущество актер-критик - является одним из таких алгоритмов актер-критик и является очень сильной базой в обучении подкреплению.
В дополнение к Q-learning и политическим градиентам, которые оба применяются в моделях без модели (ни один из алгоритмов не поддерживает модель мира), существуют также методы на основе моделей, которые действительно оценивают состояние мира. Эти модели ценны, потому что они могут быть намного более эффективными для выборки.
Алгоритмы, основанные на моделях, не являются исключительными с политическими градиентами или Q-Learning. Общий подход состоит в том, чтобы выполнить оценку состояния / изучить динамическую модель, а затем разработать политику на основе предполагаемого состояния.
Что касается классификации, то одна разбивка будет
Методы, основанные на политике, могут быть далее подразделены на
источник