При разработке решений таких проблем, как «Лунный корабль» в OpenAIGym , обучение с подкреплением является заманчивым средством предоставления агенту адекватного контроля действий для успешного приземления.
Но в каких случаях алгоритмы системы управления, такие как ПИД-регуляторы , могли бы выполнять только адекватную работу, если не лучше, чем обучение с подкреплением?
Такие вопросы, как этот , отлично справляются с теорией этого вопроса, но мало что делают для практической составляющей.
Как инженер по искусственному интеллекту, какие элементы проблемной области должны указывать мне на то, что ПИД-регулятора недостаточно для решения проблемы, и вместо этого следует использовать алгоритм обучения подкреплению (или наоборот)?
reinforcement-learning
ai-design
control-theory
SeeDerekEngineer
источник
источник
Ответы:
Я думаю, что комментарии в основном на правильном пути.
ПИД-контроллеры полезны для поиска оптимальных политик в непрерывных динамических системах, и часто эти домены также используются в качестве эталонов для RL именно потому, что существует легко полученная оптимальная политика. Однако на практике вы, очевидно, предпочтете PID-контроллер для любого домена, в котором вы можете легко его спроектировать: поведение контроллера хорошо понято, а решения RL часто трудно интерпретировать.
Где RL сияет, это в задачах, где мы знаем, как выглядит хорошее поведение (т. Е. Мы знаем функцию вознаграждения), и мы знаем, как выглядят входы датчиков (т. Е. Мы можем полностью и точно описать данное состояние численно), но у нас мало или не знаю, что мы на самом деле хотим, чтобы агент делал для получения этих наград.
Вот хороший пример:
Если бы я хотел заставить агента маневрировать самолетом от вражеского самолета с известными схемами движения за ним, используя наименьшее количество топлива, я бы предпочел использовать ПИД-регулятор .
Если бы я хотел, чтобы агент управлял самолетом и сбивал вражеский самолет с достаточным количеством топлива, оставшегося для приземления, но без формального описания того, как вражеский самолет может атаковать (возможно, человеческий эксперт будет пилотировать его в симуляциях против нашего агента) Я бы предпочел RL .
источник