Вопросы с тегом «q-learning»

18
Почему Q-Learning использует эпсилон-жадный во время тестирования?

В статье DeepMind о Q-Learning для видеоигр Atari ( здесь ) они используют эпсилон-жадный метод для исследования во время обучения. Это означает, что когда действие выбирается в процессе обучения, оно выбирается либо как действие с наибольшим значением q, либо как случайное действие. Выбор между...

14
В чем разница между эпизодом и эпохой в изучении глубокого Q?

Я пытаюсь понять знаменитую статью «Игра Atari с глубоким обучением подкреплению» ( pdf ). Я неясный о различии между эпохой и эпизодом . В алгоритме внешний цикл заканчивается эпизодами , а на рисунке ось х обозначена как эпоха . В контексте обучения подкреплению мне не ясно, что означает эпоха....

9
Насколько эффективно Q-learning с нейронными сетями, когда на одно действие приходится одна единица вывода?

Справочная информация: я использую приближение Q-значения нейронной сети в моей задаче обучения подкрепления. Подход точно такой же, как описанный в этом вопросе , однако сам вопрос другой. В этом подходе количество выходов - это количество действий, которые мы можем предпринять. Иными словами,...

9
Как мне интерпретировать кривую выживания модели риска Кокса?

Как вы интерпретируете кривую выживания из модели пропорционального риска Кокса? В этом игрушечном примере предположим, что у нас есть модель пропорционального риска Кокса для ageпеременной в kidneyданных, и сгенерируем кривую выживания. library(survival) fit <- coxph(Surv(time, status)~age,...

9
Усиленное обучение в нестационарной среде [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 11 дней назад . В1: Существуют ли распространенные или...

9
Обзор алгоритмов обучения по усилению

В настоящее время я ищу обзор алгоритмов обучения подкреплению и, возможно, их классификацию. Но рядом с Sarsa и Q-Learning + Deep Q-Learning я не могу найти ни одного популярного алгоритма. Википедия дает мне обзор различных общих методов обучения с подкреплением, но нет ссылок на различные...