Вопросы с тегом «reinforcement-learning»

Область машинного обучения, связанная с тем, как программные агенты должны действовать в среде, чтобы максимизировать некоторое понятие кумулятивного вознаграждения.

30
Что такое функция Q и что такое функция V в обучении подкреплению?

Мне кажется, что функция может быть легко выражена функцией и, таким образом, функция кажется мне излишней. Тем не менее, я новичок в изучении подкрепления, так что, я думаю, я ошибсяVVVQQQVVV Определения Q- и V-обучение находятся в контексте Марковских процессов принятия решений . MDP представляет...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

25
Разница между политикой сети AlphaGo и сетью ценностей

Я читал обзор высокого уровня об AlphaGo от Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ), и я столкнулся с условиями "политика" сеть "и" сеть ценностей ". На высоком уровне я понимаю, что сеть политик используется для предложения шагов, а сеть...

23
Что именно является начальной загрузкой в ​​обучении подкреплению?

По-видимому, в обучении с подкреплением метод временной разности (TD) является методом начальной загрузки. С другой стороны, методы Монте-Карло не являются методами начальной загрузки. Что именно является начальной загрузкой в ​​RL? Что такое метод начальной загрузки в...

19
Что такое «повтор опыта» и каковы его преимущества?

Я читал статью Google DeepMind Atari и пытаюсь понять концепцию «воспроизведения опыта». Воспроизведение опыта встречается во многих других документах для подкрепления (в частности, в статье AlphaGo), поэтому я хочу понять, как это работает. Ниже приведены некоторые выдержки. Во-первых, мы...

13
AlphaGo (и другие игровые программы, использующие обучение с подкреплением) без базы данных людей

Я не специалист в данной области, и мой вопрос, вероятно, очень наивный. Это вытекает из эссе, чтобы понять возможности и ограничения обучения подкрепления, как используется в программе AlphaGo. Программа AlphaGo была построена с использованием, среди прочего (исследование деревьев в Монте-Карло и...

12
Обучение под присмотром против обучения с подкреплением для простого самостоятельного вождения автомобиля

Я строю автомобиль с дистанционным управлением для удовольствия. Я использую Raspberry Pi в качестве бортового компьютера; и я использую различные плагины, такие как камера Raspberry Pi и датчики расстояния, для обратной связи по окружению автомобиля. Я использую OpenCV, чтобы превратить видеокадры...

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...

10
реализация временной разницы в шахматах

Я занимаюсь разработкой шахматной программы, в которой используется алгоритм обрезки альфа-бета и функция оценки, которая оценивает позиции с использованием следующих функций, а именно: материал, безопасность короля, мобильность, структура пешки и захваченные фигуры и т. Д. ..... Моя функция оценки...

10
Обучение совместному укреплению

У меня уже есть работающая реализация для одного агента, работающего над проблемой динамического ценообразования с целью максимизации дохода. Однако проблема, с которой я работаю, связана с несколькими различными продуктами, которые заменяют друг друга, поэтому динамическое ценообразование их всех...

9
Книги по усиленному обучению

Я уже довольно давно пытаюсь понять обучение с подкреплением, но каким-то образом я не могу представить, как написать программу для обучения подкреплению для решения проблемы мира сетки. Можете ли вы предложить мне несколько учебников, которые помогли бы мне составить четкую концепцию обучения в...