Всегда ли оптимальная политика стохастична, если среда также стохастична?

Является ли оптимальная политика всегда стохастической (то есть, карта от состояний к распределению вероятности по действиям), если среда также стохастическая? Интуитивно понятно, что если среда является детерминированной (то есть, если агент находится в состоянии sss и выполняет действие aaa , то...