Почему буква Q была выбрана в Q-learning?

17

Почему буква Q была выбрана во имя Q-learning?

Большинство букв выбраны в качестве аббревиатуры, например, π обозначает политику, а v обозначает значение. Но я не думаю, что Q - это аббревиатура любого слова.

привлечь
источник
1
В моем метафорическом понимании Q - это функция, которая связывает количество (назовите это вознаграждение, стоимость или что-то еще, что оптимизируется) для действия в данном состоянии.
августа
1
@sycorax оригинальный вопрос в рамке подразумевал понимание Q-обучения и, чтобы дать объяснение, это помогло бы добавить контекст. ФП будет потеряно с любым объяснением без установления основания.
knk
Помогает ли метафорический Q = количество? Я думаю об этом как о количественном определении действий, данных государствами
knk

Ответы:

35

Извините, что разочаровал всех, но Q ничего не стоит :)

Q-обучение было предложено Уоткинсом в его докторской диссертации в 1989 году, см. Стр.96. Q в уравнении на этой странице обновляется определенным образом на каждом шаге. Q - это ожидаемая отдача от действия в данном состоянии, см. Определение Q на стр.46. Возврат в экономическом смысле или в смысле теории игр, т. Е. Дисконтированного вероятностного вознаграждения, а не термина информатики, как возврат от функции.

Обратите внимание, как он уже использовал P для вероятности и R для награды, поэтому он взял Q для возврата. Вот и все. Нет более глубокого смысла в выборе буквы Q.

Аксакал
источник
3
Нет более глубокий смысл , но это смысл (что Q припадки с P и R в алфавите) и означает что - то .
Sextus Empiricus
2
@MartijnWeterings Это не имеет никакого значения. Это чисто синтаксический выбор буквы, без каких-либо семантических соображений.
Дэвид Ричерби
Конечно, семантических соображений может быть немного (и это может обсуждаться, потому что различия между латинскими или греческими буквами, буквами в разных позициях алфавита или заглавными и строчными буквами могут образовывать серую область между синтаксикой и семантикой). Я считаю выбор Q «значимым», потому что форма буквы (которая является несколько произвольной) действительно выражает в некоторой степени значение переменной / параметра. Значение относится к выбору буквы. Не было бы хорошего выбора, когда был бы выбран u или v, или i, j, k или x, y, z или . α,β,γ
Секст Эмпирик
@MartijnWeterings, Q также звучит как очередь , что также приносит несколько уместные коннотации
Аксакал
@Aksakal, это могло бы усилить использование Q. Но я не думаю, что это сильно. Я не знаю много об этой теме, но в кратком обзоре этого тезиса мне кажется очень правдоподобным, что буква использовалась для такого количества, как i R i P i или i V i P i . В конце концов ему было дано «какое-то имя», например «значение-действие», но те буквы, которые использовались в этом тезисе, похоже, гораздо больше привязаны к алфавиту. Например , е г ч для функций х у для переменных V U для функции стоимости , и это приблизительно. , и т.д.QiRiPiiViPif g hx yV U
Секст Эмпирик
0

Причина, по которой Q-Learning называется так, потому что он использует значения Q для формирования своих оценок. Обычное правило обучения: и должно быть понятно, почему это называется Q-Learning.Q(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

Но актуальный вопрос, на мой взгляд, заключается в том, почему Q-Learning называется так. Хотя, кажется, нет удовлетворительного ответа, в этой ссылке упоминается, что Эндрю Барто , который является одним из основателей Modern Reinforcement Learning, считает, что означает Качество, названное так, потому что оно характеризует, насколько хорошим будет результат вытягивания руки. быть.Q

Амит Дешпанде
источник
2
Прочтите этот тезис и расскажите мне, как «качество» имеет смысл в контексте ожидаемого возвращения
Аксакал
Хотя я согласен с вами, тезис был написан после того, как Уоткинс проконсультировался с Энди по ряду вопросов. Возможно, у Энди была идея получше, чем ты думаешь.
Амит Дешпанде
Качество даже не существует как отдельная концепция в обучении. Конечно, вы можете использовать это слово в его обычном смысле от английского. Ожидаемый доход, с другой стороны, очень хорошо определен в теории игр, нет необходимости разбавлять его, добавляя нечеткие понятия, такие как качество. Вы не максимизируете качество, вы максимизируете дисконтированные вознаграждения при подходящей мере вероятности. Если вы хотите быть немного более широким, вы можете максимизировать полезность.
Аксакал