Почему алгоритм итерации политики сходится к оптимальной функции политики и стоимости?
Я читал лекционные заметки Эндрю Нга по обучению с подкреплением и пытался понять, почему итерации политики сходятся к функции оптимального значения V∗V∗V^* и оптимальной политике .π∗π∗\pi^* Напомним, итерация политики: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's...