Почему буква Q была выбрана во имя Q-learning?
Большинство букв выбраны в качестве аббревиатуры, например, обозначает политику, а обозначает значение. Но я не думаю, что Q - это аббревиатура любого слова.
Почему буква Q была выбрана во имя Q-learning?
Большинство букв выбраны в качестве аббревиатуры, например, обозначает политику, а обозначает значение. Но я не думаю, что Q - это аббревиатура любого слова.
Ответы:
Извините, что разочаровал всех, но Q ничего не стоит :)
Q-обучение было предложено Уоткинсом в его докторской диссертации в 1989 году, см. Стр.96. Q в уравнении на этой странице обновляется определенным образом на каждом шаге. Q - это ожидаемая отдача от действия в данном состоянии, см. Определение Q на стр.46. Возврат в экономическом смысле или в смысле теории игр, т. Е. Дисконтированного вероятностного вознаграждения, а не термина информатики, как возврат от функции.
Обратите внимание, как он уже использовал P для вероятности и R для награды, поэтому он взял Q для возврата. Вот и все. Нет более глубокого смысла в выборе буквы Q.
источник
Причина, по которой Q-Learning называется так, потому что он использует значения Q для формирования своих оценок. Обычное правило обучения: и должно быть понятно, почему это называется Q-Learning.Q(st,at)←Q(st,at)+α(rt+γ×maxaQ(st+1,a)−Q(st,at))
Но актуальный вопрос, на мой взгляд, заключается в том, почему Q-Learning называется так. Хотя, кажется, нет удовлетворительного ответа, в этой ссылке упоминается, что Эндрю Барто , который является одним из основателей Modern Reinforcement Learning, считает, что означает Качество, названное так, потому что оно характеризует, насколько хорошим будет результат вытягивания руки. быть.Q
источник