Вопросы с тегом «reinforcement-learning»

12

Как вписать веса в Q-значения с приближением линейной функции

В обучении с подкреплением линейное приближение функции часто используется, когда присутствуют большие пространства состояний. (Когда поиск таблиц становится невозможным.) Форма значения с приближением линейной функции определяется какQ−Q−Q-...

machine-learning feature-selection reinforcement-learning

12

Почему для воспроизведения опыта требуется алгоритм вне политики?

В документе, представляющем DQN « Игра Atari с глубоким обучением подкреплению », упоминалось: Обратите внимание, что при обучении с помощью повторного опыта необходимо учиться вне политики (поскольку наши текущие параметры отличаются от тех, которые используются для генерации образца), что...

reinforcement-learning

12

Перевод проблемы машинного обучения в регрессионную структуру

Предположим, у меня есть панель объясняющих переменных , для i = 1 . , , N , t = 1 . , , Т , а также вектор двоичных результатов зависимых переменных У я Т . Таким образом, Y наблюдается только в последний момент времени T, а не в любое более раннее время. Полностью общий случай состоит в том,...

regression machine-learning reinforcement-learning

12

Когда методы Монте-Карло предпочтительнее, чем временные?

В последнее время я много занимаюсь изучением подкрепления. Я следовал Sutton & Barto's Reinforcement Learning: Введение для большей части этого. Я знаю, что такое Марковские процессы принятия решений и как для их решения можно использовать динамическое программирование (DP), метод Монте-Карло...

monte-carlo reinforcement-learning temporal-difference

11

Какова связь между теорией игр и обучением подкреплению?

Я заинтересован в (глубоком) изучении подкрепления (RL) . Прежде чем погрузиться в это поле, я должен пройти курс теории игр (GT) ? Как связаны GT и RL

deep-learning reinforcement-learning game-theory

11

Какова политика развертывания в статье АльфаГо?

Бумага здесь . Политика развертывания ... - это линейная политика softmax, основанная на быстрых, постепенно вычисляемых локальных функциях на основе шаблонов ... Я не понимаю, что такое политика развертывания и как она связана с политикой сети выбора хода. Любое более простое...

machine-learning monte-carlo reinforcement-learning games

11

Q-обучение с нейронной сетью как функция приближения

Я пытаюсь использовать нейронную сеть, чтобы приблизить Q-значение в Q-Learning, как в вопросах о Q-Learning с использованием нейронных сетей . Как было предложено в первом ответе, я использую линейную функцию активации для выходного слоя, в то время как я все еще использую функцию активации...

neural-networks reinforcement-learning

10

Почему алгоритм итерации политики сходится к оптимальной функции политики и стоимости?

Я читал лекционные заметки Эндрю Нга по обучению с подкреплением и пытался понять, почему итерации политики сходятся к функции оптимального значения V∗V∗V^* и оптимальной политике .π∗π∗\pi^* Напомним, итерация политики: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's...

reinforcement-learning policy-iteration

10

Можно ли обучить модель P (Y | X) с помощью стохастического градиентного спуска из неидеальных выборок P (X) и iid выборок P (Y | X)?

При обучении параметризованной модели (например, для максимизации вероятности) посредством стохастического градиентного спуска на некотором наборе данных обычно предполагается, что обучающие выборки извлекаются из распределения обучающих данных. Таким образом, если цель состоит в том, чтобы...

machine-learning conditional-probability reinforcement-learning gradient-descent

9

Насколько эффективно Q-learning с нейронными сетями, когда на одно действие приходится одна единица вывода?

Справочная информация: я использую приближение Q-значения нейронной сети в моей задаче обучения подкрепления. Подход точно такой же, как описанный в этом вопросе , однако сам вопрос другой. В этом подходе количество выходов - это количество действий, которые мы можем предпринять. Иными словами,...

machine-learning neural-networks reinforcement-learning q-learning

9

Как мне интерпретировать кривую выживания модели риска Кокса?

Как вы интерпретируете кривую выживания из модели пропорционального риска Кокса? В этом игрушечном примере предположим, что у нас есть модель пропорционального риска Кокса для ageпеременной в kidneyданных, и сгенерируем кривую выживания. library(survival) fit <- coxph(Surv(time, status)~age,...

r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

9

Усиленное обучение в нестационарной среде [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 11 дней назад . В1: Существуют ли распространенные или...

markov-process reinforcement-learning stationarity q-learning

9

Обзор алгоритмов обучения по усилению

В настоящее время я ищу обзор алгоритмов обучения подкреплению и, возможно, их классификацию. Но рядом с Sarsa и Q-Learning + Deep Q-Learning я не могу найти ни одного популярного алгоритма. Википедия дает мне обзор различных общих методов обучения с подкреплением, но нет ссылок на различные...

reinforcement-learning q-learning