Марковские процессы принятия решений, сокращения и итерация значений

Я рассматриваю процессы принятия решений по Маркову (MDP), и мне не хватает чего-то в отношении аргумента сокращения. Я почти уверен, что это где-то глупая ошибка (возможно, вычислительная), но в любом случае, я не могу понять это. Здесь это идет. Рассмотрим простую MDP с двумя состояниями и двумя...