Является ли оптимальная политика всегда стохастической (то есть, карта от состояний к распределению вероятности по действиям), если среда также стохастическая?
Интуитивно понятно, что если среда является детерминированной (то есть, если агент находится в состоянии и выполняет действие , то следующее состояние всегда одинаково, независимо от того, какой временной шаг), тогда оптимальная политика также должна быть детерминированной (то есть это должна быть карта от состояний к действиям, а не к распределению вероятностей по действиям).
Ответы:
Нет.
Оптимальная политика обычно является детерминированной, если:
Важная информация о состоянии отсутствует (POMDP). Например, на карте, где агенту не разрешено знать его точное местоположение или запоминать предыдущие состояния, а заданное ему состояние недостаточно для устранения неоднозначности между местоположениями. Если цель состоит в том, чтобы добраться до определенного конечного местоположения, оптимальная политика может включать в себя несколько случайных перемещений, чтобы избежать застревания. Обратите внимание, что среда в этом случае может быть детерминированной (с точки зрения человека, который может видеть все состояние), но все же привести к необходимости стохастической политики для ее решения.
Существует некоторый сценарий теории минимаксных игр, где детерминистическая политика может быть наказана окружающей средой или другим агентом. Подумайте, ножницы / бумага / камень или дилемма заключенного.
Это кажется разумным, но вы можете развить эту интуицию с помощью любого метода, основанного на функции значения:
Если вы нашли функцию оптимального значения, то действовать жадно по отношению к ней - оптимальная политика.
Вышеприведенное утверждение является просто естественным языком переформулировки уравнения оптимальности Беллмана:
Следовательно, любая среда, которая может быть смоделирована с помощью MDP и решена с помощью метода, основанного на значениях (например, итерация значений, Q-обучение), имеет оптимальную политику, которая является детерминированной.
В такой среде возможно, что оптимальное решение может быть вовсе не стохастическим (т. Е. Если вы добавите какую-либо случайность в детерминированную оптимальную политику, политика станет строго хуже). Однако, когда есть связи для максимального значения для одного или нескольких действий в одном или нескольких состояниях, тогда существует множество эквивалентных оптимальных и детерминированных политик. Вы можете построить стохастическую политику, которая смешивает их в любой комбинации, и она также будет оптимальной.
источник
Я бы сказал нет.
Очевидно, что если вы находитесь в среде, в которой вы играете против другого агента (настройка теории игр), ваша оптимальная политика, безусловно, будет стохастической (например, покерная игра).
источник
Я думаю о вероятностном ландшафте, в котором вы окажетесь актером, с различными неизвестными пиками и впадинами. Хороший детерминистический подход всегда может привести вас к ближайшему локальному оптимуму, но не обязательно к глобальному оптимуму. Чтобы найти глобальный оптимум, что-то вроде алгоритма MCMC позволило бы стохастически принять временно худший результат, чтобы вырваться из локального оптимума и найти глобальный оптимум. Моя интуиция заключается в том, что в стохастической среде это также будет правдой.
источник