Как вписать веса в Q-значения с приближением линейной функции

В обучении с подкреплением линейное приближение функции часто используется, когда присутствуют большие пространства состояний. (Когда поиск таблиц становится невозможным.)

Форма значения с приближением линейной функции определяется как $Q-$

Q (s, a) = w_{1} f_{1} (s, a) + w_{2} f_{2} (s, a) + \dots,

$Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots,$

где - веса, а - характеристики. $w_i$ $f_i$

Функции предопределены пользователем. У меня вопрос, как распределяются веса?

Я прочитал / скачал несколько слайдов лекций по learning с приближением функции. У большинства из них есть слайды по линейной регрессии, которые следуют. Поскольку они просто слайды, они, как правило, неполные. Интересно, какова связь между двумя темами? $Q-$

machine-learning feature-selection reinforcement-learning ОЦП
источник

Аппроксимация функции - это в основном проблема регрессии (в общем смысле, то есть в отличие от классификации, где класс дискретен), то есть человек пытается выучить отображение функции от ввода (в вашем случае ) к вещественному значению выход . Поскольку у нас нет полной таблицы всех входных / выходных значений, а вместо этого изучаем и оцениваем одновременно, параметры (здесь: веса ) не могут быть вычислены непосредственно из данных. Обычным подходом здесь является использование градиентного спуска . $f(s,a)$ $Q(s,a)$ $Q(s,a)$ $w$

Вот общий алгоритм обучения с приближением функции значения $Q(s,a)$

Вектор параметра случайным образом (например, в [0,1]) $w=(w_1,w_2,....,w_n)$
Для каждого эпизода:
1. $s\leftarrow$ начальное состояние эпизода
2. $a\leftarrow$ заданное policy (рекомендуем: -greedy) $\pi$ $\epsilon$
3. Примите меры , соблюдайте награду и следующее состояние $a$ $r$ $s'$
4. $w\leftarrow w+ \alpha(r+\gamma * max_{a'}Q(s',a') - Q(s,a)) \vec\nabla_wQ(s,a)$
5. $s\leftarrow s'$
Повторяйте 2-5, пока станет терминальным $s$

где ...

$\alpha\in[0,1]$ - скорость обучения
$\gamma\in[0,1]$ - ставка дисконта
$max_{a'}Q(s',a')$ - это действие в состоянии максимизирующее $a'$ $s'$ $Q(s',a)$
$\vec\nabla_wQ(s,a)$ - градиент в . В вашем линейном случае градиент - это просто вектор $Q(s,a)$ $w$ $(f_1(s,a),...,f_n(s,a))$

Обновление параметров / весов (4-й шаг) можно прочитать следующим образом:

$(r+\gamma * max_a'Q(s',a')) - (Q(s,a))$ - ошибка между предсказанием и «фактическим» значением для , что награда , полученный в настоящее время плюс ожидаемый, дисконтированных вознаграждение после жадной после $Q(s,a)$ $Q(s,a)$ $r$ $\gamma * max_a'Q(s',a')$
Таким образом, параметр / весовой вектор смещается в самое крутое направление (определяемое градиентом ) на величину измеренной ошибки, скорректированной на . $\vec\nabla_wQ(s,a)$ $\alpha$

Основной источник:

Глава 8 Ценностная аппроксимация (общая рекомендуемая) книга « Укрепление знаний: введение Саттона и Барто» (первое издание). Общий алгоритм был изменен, поскольку обычно это делается для вычисления вместо . Я также удалил кривые соответствия чтобы сосредоточиться на градиентном спуске, следовательно, используя только одношаговое резервное копирование $Q(s,a)$ $V(s)$ $e$

Больше ссылок

Игра Atari с Deep Reinforcement Learning от Mnih демонстрирует отличный практический пример обучения с помощью распростертых нейронных сетей (где Gradient Descent включена в алгоритм регрессии). $Q(s,a)$
Краткий обзор аппроксимации параметрической функции значения Гейстом и Пьеткиным. Выглядит многообещающе, но я еще не читал.

Штеффен
источник

Неработающая ссылка на Барто и Саттон! Теперь здесь -> incompleteideas.net/book/the-book.html :) и как электронная книга incompleteideas.net/book/ebook, но я не знаю, где найти файл mobi

grisaitis

Разве градиент Q (s, a) не связан с вектором столбца wa, где каждый элемент равен fi (s, a), а не является суммой всех fi, как вы сказали? Цель состоит в том, чтобы каждый вес изменялся в соответствии со значением объекта, на который он умножается.

Мигель Сарайва

@MiguelSaraiva Да, это исправлено. Большое спасибо.

Штеффен

Как вписать веса в Q-значения с приближением линейной функции

Ответы: