Я изучал проблемы обучения с иерархическим подкреплением, и хотя во многих статьях предлагаются алгоритмы для изучения политики, все они, похоже, предполагают, что заранее знают структуру графа, описывающую иерархию действий в домене. Например, метод MAXQ для обучения иерархическому усилению от Dietterich описывает график действий и подзадач для простого домена Такси, но не то, как этот граф был обнаружен. Как бы вы узнали иерархию этого графика, а не только политику?
Другими словами, используя пример из статьи, если бы Такси бесцельно разъезжало, не обладая предварительным знанием мира, и делая только примитивные действия «двигаться влево / двигаться вправо / и т. Д.», Как бы оно изучало действия более высокого уровня, такие как гоу-пикап пассажира? Если я правильно понимаю документ (а может и нет), он предлагает, как обновить политику для этих действий высокого уровня, а не то, как они формируются с самого начала.
источник