Вопросы с тегом «reinforcement-learning»

Для вопросов, связанных с обучением, контролируемых внешним положительным подкреплением или отрицательным сигналом обратной связи или и тем, и другим, когда изучение и использование того, что уже изучено, происходит одновременно.

29
В чем разница между безмодельным и основанным на моделях обучением с подкреплением?

В чем разница между безмодельным и основанным на моделях обучением с подкреплением? Мне кажется, что любой учащийся без модели, обучающийся методом проб и ошибок, может быть переименован в основанный на модели. В таком случае, когда ученики без моделей будут...

21
Какова связь между методами Q-обучения и политическими градиентами?

Насколько я понимаю, Q-learning и градиенты политики (PG) - это два основных подхода, используемых для решения проблем RL. В то время как Q-Learning стремится предсказать вознаграждение за определенное действие, предпринятое в определенном состоянии, политические градиенты непосредственно...

20
Как обрабатывать недопустимые движения в обучении подкреплению?

Я хочу создать ИИ, который может играть пять в ряд / гомоку. Как я уже упоминал в названии, я хочу использовать для этого обучение с подкреплением. Я использую метод градиента политики , а именно REINFORCE, с базовым уровнем. Для приближения значения и функции политики я использую нейронную сеть ....

14
Что такое эффективность выборки и как можно использовать выборку важности для ее достижения?

Например, заголовок этой статьи гласит: «Пример эффективного критика актера с повторением опыта». Что такое эффективность выборки и как можно использовать выборку важности для ее...

14
Как определить состояния в обучении подкрепления?

Я изучаю подкрепление обучения и варианты его. Я начинаю понимать, как работают алгоритмы и как они применяются к MDP. Что я не понимаю, так это процесс определения состояний MDP. В большинстве примеров и учебных пособий они представляют собой нечто простое, например квадрат в сетке или что-то...

13
Есть ли какие-либо приложения для обучения подкреплению, кроме игр?

Есть ли способ научить усиленному обучению в приложениях, отличных от игр? Единственные примеры, которые я могу найти в Интернете, - это игровые агенты. Я понимаю, что VNC контролирует вход в игры через сеть подкрепления. Можно ли настроить это, скажем, с помощью программного обеспечения...

13
Почему вы не видите выпадающих слоев на примерах обучения подкреплению?

Я смотрел на обучение подкрепления и, в частности, пытался создавать свои собственные среды для использования с OpenAI Gym AI. Я использую агентов из проекта stable_baselines для тестирования с ним. Одна вещь, которую я заметил практически во всех примерах RL, заключается в том, что ни в одной из...

13
Как реализовать ограниченное пространство действий в обучении подкреплению?

Я кодирую модель обучения подкреплению с агентом PPO благодаря очень хорошей библиотеке Tensorforce , построенной поверх Tensorflow. Первая версия была очень простой, и теперь я погружаюсь в более сложную среду, где не все действия доступны на каждом этапе. Допустим, есть 5 действий, и их...

12
Когда я должен использовать Reinforcement Learning против PID Control?

При разработке решений таких проблем, как «Лунный корабль» в OpenAIGym , обучение с подкреплением является заманчивым средством предоставления агенту адекватного контроля действий для успешного приземления. Но в каких случаях алгоритмы системы управления, такие как ПИД-регуляторы , могли бы...

12
Почему Q-обучение не сходится при использовании приближения функций?

Алгоритм табличного Q-обучения гарантированно найдет оптимальную QQQ функцию, Q∗Q∗Q^* , при условии, что выполнены следующие условия (условия Роббинса-Монро ) относительно скорости обучения ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s,...

12
Почему DQN требует двух разных сетей?

Я проходил эту реализацию DQN и вижу, что в строке 124 и 125 были инициализированы две разные сети Q. Из моего понимания я думаю, что одна сеть предсказывает соответствующее действие, а вторая сеть предсказывает целевые значения Q для нахождения ошибки Беллмана. Почему мы не можем просто создать...

11
Как оставаться современным исследователем в сообществе ML / RL?

Как студент, который хочет работать над машинным обучением, я хотел бы знать, как можно начать учебу и как следовать ей, чтобы оставаться в курсе. Например, я готов работать над проблемами RL и MAB, но есть огромная литература по этим темам. Кроме того, эти темы изучаются исследователями из...

11
Почему ставка дисконта в алгоритме REINFORCE появляется дважды?

Я читал книгу « Усиленное обучение: введение» Ричарда С. Саттона и Эндрю Г. Барто (полный проект, 5 ноября 2017 г.). На странице 271 представлен псевдокод для эпизодического метода градиента политики Монте-Карло. Глядя на этот псевдокод, я не могу понять, почему кажется, что ставка дисконта...

11
Как можно применять градиенты политики в случае нескольких непрерывных действий?

Оптимизация политики в доверенных регионах (TRPO) и Proximal Policy Optimization (PPO) - это два передовых алгоритма градиента политики. При использовании одного непрерывного действия обычно вы используете некоторое распределение вероятностей (например, гауссово) для функции потерь. Черновая...

10
Всегда ли оптимальная политика стохастична, если среда также стохастична?

Является ли оптимальная политика всегда стохастической (то есть, карта от состояний к распределению вероятности по действиям), если среда также стохастическая? Интуитивно понятно, что если среда является детерминированной (то есть, если агент находится в состоянии sss и выполняет действие aaa , то...

10
Что такое оператор Беллмана в обучении подкреплению?

В математике оператор слова может относиться к нескольким различным, но связанным понятиям. Оператор может быть определен как функция между двумя векторными пространствами, он может быть определен как функция, в которой домен и кодомен одинаковы, или его можно определить как функцию от функций...

9
Поиск по дереву Монте-Карло квалифицируется как машинное обучение?

Насколько я понимаю, алгоритм поиска дерева Монте-Карло (MCTS) является альтернативой минимаксному поиску дерева узлов. Он работает, выбирая ход (как правило, тот, у которого больше шансов быть лучшим), а затем выполняя случайную игру на ходу, чтобы посмотреть, каков будет результат. Этот процесс...

9
Почему базовый уровень зависит от состояния в какой-то момент времени непредвзято?

В робототехнике, метод обучения подкрепления используется для поиска шаблона управления для робота. К сожалению, большинство методов градиента политики являются статистически необъективными, что может привести робота к небезопасной ситуации, см. Стр. 2 в публикации «Ян Петерс и Штефан Шааль:...

9
Несколько сомнений относительно применения обучения с подкреплением в таких играх, как шахматы

Я изобрел шахматную настольную игру. Я построил двигатель, чтобы он мог играть автономно. Двигатель в основном дерево решений. Он состоит из: Функция поиска, которая на каждом узле находит все возможные законные ходы Функция оценки, которая присваивает числовое значение позиции на доске...

8
Знакомство с непрерывными пространствами состояний / действий, MDP и Reinforcement Learning

Большинство введений в области MDP и обучения в области подкрепления сосредоточены исключительно на областях, где переменные пространства и действия являются целыми (и конечными). Таким образом, мы быстро знакомимся с Value Iteration, Q-Learning и тому подобным. Однако наиболее интересные...