Похоже, что определение контролируемого обучения является подмножеством обучающего обучения с особым типом функции вознаграждения, основанной на помеченных данных (в отличие от другой информации в среде). Это точное изображение?
Похоже, что определение контролируемого обучения является подмножеством обучающего обучения с особым типом функции вознаграждения, основанной на помеченных данных (в отличие от другой информации в среде). Это точное изображение?
Это правда, что любая контролируемая проблема обучения может рассматриваться как эквивалентная проблема обучения с подкреплением: пусть состояния соответствуют входным данным. Пусть действия соответствуют прогнозам выхода. Определите вознаграждение как отрицательную функцию потери, используемую для обучения под наблюдением. Максимизируйте ожидаемое вознаграждение. Напротив, проблемы обучения с подкреплением, как правило, не могут рассматриваться как контролируемые проблемы обучения. Таким образом, с этой точки зрения проблемы обучения под наблюдением являются подмножеством проблем обучения подкрепления.
Но попытка решить контролируемую проблему обучения с использованием общего алгоритма обучения с подкреплением была бы довольно бессмысленной; все, что это делает, это выбрасывает структуру, которая облегчила бы решение проблемы. В процессе обучения с подкреплением возникают различные проблемы, которые не имеют отношения к обучению под наблюдением. И, контролируемое обучение может извлечь выгоду из подходов, которые не применяются в общих условиях обучения подкрепления. Таким образом, хотя между полями существуют некоторые общие базовые принципы и общие методы, обычно не рассматривают контролируемое обучение как тип обучения с подкреплением.
Ссылки
Барто и Диттерих (2004) . Усиленное обучение и его связь с контролируемым обучением.