Изучение структуры задачи иерархического подкрепления

Я изучал проблемы обучения с иерархическим подкреплением, и хотя во многих статьях предлагаются алгоритмы для изучения политики, все они, похоже, предполагают, что заранее знают структуру графа, описывающую иерархию действий в домене. Например, метод MAXQ для обучения иерархическому усилению от Dietterich описывает график действий и подзадач для простого домена Такси, но не то, как этот граф был обнаружен. Как бы вы узнали иерархию этого графика, а не только политику?

Другими словами, используя пример из статьи, если бы Такси бесцельно разъезжало, не обладая предварительным знанием мира, и делая только примитивные действия «двигаться влево / двигаться вправо / и т. Д.», Как бы оно изучало действия более высокого уровня, такие как гоу-пикап пассажира? Если я правильно понимаю документ (а может и нет), он предлагает, как обновить политику для этих действий высокого уровня, а не то, как они формируются с самого начала.

machine-learning Cerin
источник

Ответы:

Согласно этой статье

В текущем состоянии разработчик системы RL обычно использует предварительные знания о задаче, чтобы добавить определенный набор параметров к набору примитивных действий, доступных для агента.

Также см. Раздел 6.2 «Изучение иерархий задач» в том же документе.

Первая идея, которая приходит мне в голову, состоит в том, что если вы не знаете иерархии задач, вам следует начать с изучения неиерахиального подкрепления и попытаться обнаружить структуру позже или во время обучения, т.е. вы пытаетесь обобщить свою модель. Для меня эта задача выглядит аналогично методике слияния байесовской модели для HMM (например, см. Этот тезис )

Алексей Калмыков
источник