Вопросы с тегом «reinforcement-learning»

Набор динамических стратегий, с помощью которых алгоритм может изучать структуру среды в сети, адаптивно предпринимая действия, связанные с различными вознаграждениями, чтобы максимизировать заработанные вознаграждения.

79
В чем разница между обучением вне политики и вне политики?

Сайт искусственного интеллекта определяет обучение вне политики и вне политики следующим образом: «Учащийся вне политики изучает значение оптимальной политики независимо от действий агента. Q-learning - учащийся вне политики. Учащийся вне политики изучает значение политики, проводимой агентом,...

43
Понимание роли дисконтного фактора в обучении с подкреплением

Я учу себя изучению подкрепления и пытаюсь понять концепцию дисконтированного вознаграждения. Таким образом, награда необходима, чтобы сообщить системе, какие пары состояние-действие хороши, а какие плохи. Но то, что я не понимаю, - то, почему дисконтированное вознаграждение необходимо. Почему...

32
Почему нет механизмов глубокого обучения шахматам, похожих на AlphaGo?

Компьютеры в течение долгого времени могли играть в шахматы, используя метод "грубой силы", исследуя определенную глубину и затем оценивая позицию. Компьютер AlphaGo, однако, использует только ANN для оценки позиций (насколько я знаю, он не выполняет поиск по глубине). Можно ли создать шахматный...

30
Обучение под наблюдением, обучение без учителя и обучение с подкреплением: основы рабочего процесса

Контролируемое обучение 1) Человек строит классификатор на основе входных и выходных данных 2) Этот классификатор обучается с обучающим набором данных 3) Этот классификатор тестируется с тестовым набором данных 4) Развертывание, если выход удовлетворительный Для использования, когда «я знаю, как...

27
Лучший бандитский алгоритм?

Самым известным бандитским алгоритмом является верхний предел доверия (UCB), который популяризировал этот класс алгоритмов. С тех пор я предполагаю, что теперь есть лучшие алгоритмы. Каков текущий лучший алгоритм (с точки зрения либо эмпирической производительности, либо теоретических границ)?...

25
Ежедневный анализ временных рядов

Я пытаюсь провести анализ временных рядов, и я новичок в этой области. У меня есть ежедневный подсчет событий с 2006 по 2009 год, и я хочу приспособить модель временного ряда к нему. Вот прогресс, который я сделал: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) В...

22
Как бы вы разработали систему машинного обучения для игры в Angry Birds?

После игры слишком много Angry Birds я начал наблюдать за своими собственными стратегиями. Оказывается, я разработал очень специфический подход к получению 3 звезд на каждом уровне. Это заставило меня задуматься о проблемах разработки системы машинного обучения, которая могла бы играть в Angry...

20
Что такое повторное обучение

Недавно я наткнулся на слово «Обучение периодическому усилению». Я понимаю, что такое «Рекуррентная нейронная сеть» и что такое «Обучение с подкреплением», но не смог найти много информации о том, что такое «Рекуррентное обучение с подкреплением». Может кто-нибудь объяснить мне, что такое...

19
Когда выбрать SARSA против Q Learning

SARSA и Q Learning - это алгоритмы обучения с подкреплением, которые работают аналогичным образом. Самым поразительным отличием является то, что SARSA придерживается политики, а Q Learning - вне политики. Правила обновления следующие: Q Обучение: Q ( s)T,T) ← Q ( s)T,T) + α [ rт + 1+ γ максa'Q (...

18
как сделать функцию вознаграждения в обучении подкрепления

Изучая обучение подкреплению, я сталкивался со многими формами функции вознаграждения: , и даже с функцией вознаграждения, которая зависит только от текущего состояния. Сказав это, я понял, что не очень легко «сделать» или «определить» функцию вознаграждения.R ( s , a )р(s,a)R(s,a)R ( s , a ,...

18
Почему Q-Learning использует эпсилон-жадный во время тестирования?

В статье DeepMind о Q-Learning для видеоигр Atari ( здесь ) они используют эпсилон-жадный метод для исследования во время обучения. Это означает, что когда действие выбирается в процессе обучения, оно выбирается либо как действие с наибольшим значением q, либо как случайное действие. Выбор между...

16
Является ли контролируемое обучение подмножеством обучения с подкреплением?

Похоже, что определение контролируемого обучения является подмножеством обучающего обучения с особым типом функции вознаграждения, основанной на помеченных данных (в отличие от другой информации в среде). Это точное...

15
Почему всегда есть хотя бы одна политика, которая лучше или равна всем другим политикам?

Усиление обучения: введение. Второе издание, в процессе ., Ричард С. Саттон и Эндрю Дж. Барто (с) 2012, с. 67-68. Решение задачи обучения с подкреплением означает, грубо говоря, поиск политики, которая в конечном итоге приносит много пользы. Для конечных MDP мы можем точно определить оптимальную...

15
В каких реальных ситуациях мы можем использовать алгоритм многорукого бандита?

Многорукие бандиты хорошо работают в ситуации, когда у вас есть выбор, и вы не уверены, какой из них увеличит ваше самочувствие. Вы можете использовать алгоритм для некоторых реальных жизненных ситуаций. В качестве примера, обучение может быть хорошей областью: Если ребенок изучает столярное дело,...

14
Вопросы о Q-Learning с использованием нейронных сетей

Я внедрил Q-Learning, как описано в http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Для того, чтобы ок. Q (S, A) Я использую структуру нейронной сети, как показано ниже, Активация сигмовидной кишки Входы, количество входов + 1 для нейронов действия (все входы масштабируются...

14
ГАМ против проигрыша против сплайнов

Контекст : Я хочу , чтобы нарисовать линию в диаграмме рассеяния , что не появляется параметрическими, поэтому я использую geom_smooth()в ggplotв R. Он автоматически возвращает geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use...

14
В чем разница между эпизодом и эпохой в изучении глубокого Q?

Я пытаюсь понять знаменитую статью «Игра Atari с глубоким обучением подкреплению» ( pdf ). Я неясный о различии между эпохой и эпизодом . В алгоритме внешний цикл заканчивается эпизодами , а на рисунке ось х обозначена как эпоха . В контексте обучения подкреплению мне не ясно, что означает эпоха....

13
Почему обучение глубокому подкреплению нестабильно?

В документе DeepMind 2015 года об обучении глубокому подкреплению говорится, что «предыдущие попытки объединить RL с нейронными сетями в значительной степени потерпели неудачу из-за нестабильного обучения». Затем в документе перечислены некоторые причины этого, основанные на корреляции между...

13
Оптимальный алгоритм решения n-вооруженных бандитских задач?

Я читал о ряде алгоритмов для решения проблем с n-вооруженными бандитами, таких как -greedy, softmax и UCB1, но у меня возникли некоторые проблемы при выборе лучшего подхода для минимизации сожалений.εε\epsilon Существует ли известный оптимальный алгоритм для решения проблемы вооруженного бандита?...