В обучении с подкреплением линейное приближение функции часто используется, когда присутствуют большие пространства состояний. (Когда поиск таблиц становится невозможным.)
Форма значения с приближением линейной функции определяется как
где - веса, а - характеристики.
Функции предопределены пользователем. У меня вопрос, как распределяются веса?
Я прочитал / скачал несколько слайдов лекций по learning с приближением функции. У большинства из них есть слайды по линейной регрессии, которые следуют. Поскольку они просто слайды, они, как правило, неполные. Интересно, какова связь между двумя темами?