Я рассматриваю процессы принятия решений по Маркову (MDP), и мне не хватает чего-то в отношении аргумента сокращения. Я почти уверен, что это где-то глупая ошибка (возможно, вычислительная), но в любом случае, я не могу понять это. Здесь это идет.
Рассмотрим простую MDP с двумя состояниями и двумя действиями, определенными следующим образом.
$$ r (s, a) = \ begin {pmatrix} 1 & amp; 1 \ 1 & amp; 1 \ end {pmatrix}, $$
$$ P (s, s ', 1) = \ begin {pmatrix} 1 & amp; 0 \\ 1 & amp; 0 \ end {pmatrix}, $$
$$ P (s, s ', 2) = \ begin {pmatrix} 0.5 & amp; 0,5 \ 0,5 & amp; 0,5 \ end {pmatrix}, $$
$$ \ beta \ in (0,1). $$
Теперь предположим, что мы начинаем с двух догадок для функции значения
$$ V_1 (s) = \ begin {pmatrix} 100 \\ 0 \ end {pmatrix}, $$
а также
$$ V_2 (s) = \ begin {pmatrix} 0 \\ 1 \ end {pmatrix}. $$
Если мы итерируем эти приближенные функции значений с помощью оператора Беллмана, мы получим
$$ T (V_1) = \ begin {pmatrix} \ max_a \ begin {case} 1 + 100 \ beta, \ qquad \ text {if} a = 1, \\ 1 + 50 \ beta, \ qquad \ text {if} a = 2. \ end {case} \\ \ max_a \ begin {case} 1 + 100 \ beta, \ qquad \ text {if} a = 1, \\ 1 + 50 \ beta, \ qquad \ text {if} a = 2. \ end {case} \ end {pmatrix} = \ begin {pmatrix} 1 + \ beta 100 \\ 1+ \ beta 100 \ end {pmatrix} $$
а также
$$ T (V_2) = \ begin {pmatrix} \ max_a \ begin {case} 1 + 0 \ beta, \ qquad \ text {if} a = 1, \\ 1 + 0.5 \ beta, \ qquad \ text {if} a = 2. \ end {case} \\ \ max_a \ begin {case} 1 + 0 \ beta, \ qquad \ text {if} a = 1, \\ 1 + 0.5 \ beta, \ qquad \ text {if} a = 2. \ end {case} \ end {pmatrix} = \ begin {pmatrix} 1 + \ beta 0.5 \\ 1+ \ beta 0.5 \ end {pmatrix} $$
Но тогда для $ \ beta $, достаточно близкого к $ 1 $ и, например, для нормы Манхэттена, мы имеем
$$ d (V_1 (s), V_2 (s)) \ приблизительно 101, $$
а также
$$ d (T (V_1 (s)), T (V_2 (s))) \ около 199. $$
Теперь это звучит странно для меня, потому что я думал, что $ T $ должен был быть сжатым отображением. Где я облажался? Есть ли ошибка в моих вычислениях? Я забыл применить важную гипотезу? Или я что-то неправильно понимаю в сопоставлениях сокращений?
источник