Я знаком с контролируемым и неконтролируемым обучением. Я прошел курс SaaS Эндрю Нга на Coursera.org.
Я ищу что-то подобное для обучения подкреплению.
Вы можете порекомендовать что-нибудь?
Я знаком с контролируемым и неконтролируемым обучением. Я прошел курс SaaS Эндрю Нга на Coursera.org.
Я ищу что-то подобное для обучения подкреплению.
Вы можете порекомендовать что-нибудь?
К хорошим ответам здесь я бы добавил
Краткий обзор RL : самые важные понятия в одном месте.
Еще один краткий обзор в формате презентации.
Уравнения Беллмана : центральные для всей теории РЛ.
Градиенты политики объясняются Андреем Карпати (в других ответах упоминается как «понг из пикселей», это ссылка).
Они едва царапают поверхность RL, но они должны помочь вам начать.
Есть список воспроизведения на YouTube (на канале DeepMind ), название которого - Введение в обучение с подкреплением , представляющее собой курс (из 10 уроков) по обучению с подкреплением от David Silver .
Человек, который следовал и закончил курс, написал (как комментарий Youtube):
Отличный курс. Хороший темп, достаточно примеров, чтобы обеспечить хорошую интуицию, и учил кто-то, кто является лидером в области применения RL к играм.
Перед этим спросите себя, действительно ли вы хотите узнать об «обучении подкреплению». Хотя в обучении с подкреплением много ажиотажа, практическая применимость обучения с подкреплением практически отсутствует. Большинство онлайн-курсов очень мало учат вас машинному обучению, поэтому гораздо лучше освоить его, чем переходить к усиленному обучению. Обучение с подкреплением обучения несколько отличается от обучения методам обучения без учителя / под наблюдением.
Сказав это, самый быстрый способ получить хорошее представление о подкреплении обучения заключается в следующем:
Прочитайте сообщение в блоге Андрея Карпати "Понг из пикселей".
Посмотрите лекции Deep RL Bootcamp .
Чтобы понять математику, лежащую в основе этих методов, обратитесь к Саттону и « Усиленному обучению Барто : Введение» .
Читайте соответствующие статьи (игры и т. Д.).
PS: убедитесь, что вы разбираетесь в основах нейронных сетей, так как большинство современных статей в RL так или иначе используют DNN в качестве аппроксиматоров.
real-world applicability of reinforcement learning is almost non-existent
АльфаГо прошел обучение с обучением подкреплению.Я недавно видел курс Microsoft по edx. Это называется «Укрепление обучения объяснил».
Вот ссылка: https://www.edx.org/course/reinforcement-learning-explained-0 Это не совсем исчерпывающе, но, по крайней мере, дает хорошую отправную точку.
источник
Я бы сказал, что этот пост необходимо прочитать:
источник