Почему всегда есть хотя бы одна политика, которая лучше или равна всем другим политикам?

Усиление обучения: введение. Второе издание, в процессе ., Ричард С. Саттон и Эндрю Дж. Барто (с) 2012, с. 67-68.

Решение задачи обучения с подкреплением означает, грубо говоря, поиск политики, которая в конечном итоге приносит много пользы. Для конечных MDP мы можем точно определить оптимальную политику следующим образом. Функции значения определяют частичное упорядочение по политикам. Политика $\pi$ определяется как лучшая или равная политике $\pi'$ если ее ожидаемая отдача больше или равна таковой $\pi'$ для всех состояний. Другими словами, $\pi \geq \pi'$ тогда и только тогда, когда $v_\pi(s) \geq v_{\pi'}(s)$ для всех $s \in \mathcal{S}$ . Всегда есть хотя бы одна политика, которая лучше или равна всем другим политикам. Это оптимальная политика.

markov-process reinforcement-learning sh1ng
источник

Очень подробное доказательство (которое использует теорему Банаха о неподвижной точке) появляется в главе 6.2 «Марковских процессов принятия решений» Путермана.

Тогс

Ответы:

Только после процитированной части, тот же параграф фактически говорит вам, что это за политика: именно она принимает наилучшие меры в каждом штате. В MDP действие, которое мы предпринимаем в одном государстве, не влияет на вознаграждение за действия, предпринимаемые в других государствах, поэтому мы можем просто максимизировать политику в каждом штате.

Дон реба
источник

Не является ли этот ответ совершенно неправильным? Как можно сказать, что оптимизация государственной политики государством приводит к оптимальной политике. Если я оптимизирую по состоянию

S_{t}

$S_t$ и это занимает у меня

S_{t + 1}

$S_{t+1}$ а затем оптимизация при

S_{t + 1}

$S_{t+1}$ приводит к функции оптимального значения

V_{t + 1}

$V_{t+1}$ но есть другая политика, в которой

S_{t}

$S_t$ приводит неоптимально к

S_{l}

$S_l$ и оптимальному Функция значения

S_{l}

$S_l$ выше, чем

V_{t + 1}

$V_{t+1}$ . Как вы можете исключить это с помощью такого беглого анализа?

MiloMinderbinder

@MiloMinderbinder Если оптимальной политикой в

S_{t}

$S_t$ является выбор

S_{t + 1}

$S_{t+1}$ , то значение

S_{t + 1}

$S_{t+1}$ выше, чем значение

S_{l}

$S_l$ .

Дон Реба

Виноват. Опечатка исправлена: «Не является ли этот ответ совершенно неправильным? Как вы можете сказать, что оптимизация государственной политики приводит к оптимальной политике? Если я оптимизирую по состоянию

и это приводит меня к

а затем оптимизация при

приводит к функции оптимального значения

из

но есть другая политика, в которой

хотя и приводит субоптимально к

и, следовательно, функция значения

S_{t}

$S_t$

S_{t + 1}

$S_{t+1}$

S_{t + 1}

$S_{t+1}$

V_{t + 2}

$V_{t+2}$

S_{t + 2}

$S_{t+2}$

S_{t}

$S_t$

S_{l + 1}

$S_{l+1}$

S_{t + 1}

$S_{t+1}$ выше, чем

но функция значения

в этой политике выше, чем в соответствии с политикой, определяемой путем оптимизации состояния за состоянием. Как это нарушено вами?

V_{l + 1}

$V_{l+1}$

S_{t + 2}

$S_{t+2}$

MiloMinderbinder

Я думаю, что определение

предотвратит это прежде всего, так как оно должно учитывать и будущие доходы.

V

$V$

Flying_Banana

Тогда возникает вопрос: почему существует

? Вы не можете обойти теорему Банаха о неподвижной точке :-)

q_{*}

$q_*$

Фабиан Вернер

Существование оптимальной политики не очевидно. Чтобы понять почему, обратите внимание, что функция value обеспечивает только частичное упорядочение в пространстве политик. Это означает:

π^{'} \geq π ⟺ v_{π^{'}} (s) \geq v_{π} (s), \forall s \in S

$\pi' \geq \pi \iff v_{\pi'}(s) \geq v_{\pi}(s), \forall s \in S$

Поскольку это только частичное упорядочение, может быть случай, когда две политики, и , не сравнимы. Другими словами, существуют подмножества пространства состояний и такие что: $\pi_1$ $\pi_2$ $S_1$ $S_2$

v_{π^{'}} (s) \geq v_{π} (s), \forall s \in S_{1}

$v_{\pi'}(s) \geq v_{\pi}(s), \forall s \in S_1$

v_{π} (s) \geq v_{π^{'}} (s), \forall s \in S_{2}

$v_{\pi}(s) \geq v_{\pi'}(s),\forall s \in S_2$

В этом случае нельзя сказать, что одна политика лучше другой. Но если мы имеем дело с конечными MDP с ограниченными функциями значений, то такой сценарий никогда не происходит. Существует ровно одно оптимальное значение функции, хотя может быть несколько оптимальных политик.

Для доказательства этого вам нужно понять теорему Банаха о неподвижной точке. Для подробного анализа, пожалуйста, обратитесь .

Картик Тиагараджан
источник

$\newcommand{\mc}{\mathcal} \newcommand{\mb}{\mathbb}$

настройка

Мы рассматриваем в настройках:

Дискретные действия
Дискретные состояния
Ограниченные награды
Стационарная политика
Бесконечный горизонт

Политика оптимальной определяется как: и значение функции оптимальным является: Там может быть множество политики, которые достигают максимума. Но есть только одна функция оптимального значения:

\begin{matrix} (1) & π^{*} \in \arg max_{π} V^{π} (s), \forall s \in S \end{matrix}

$\pi^\ast \in \arg \max_\pi V^\pi(s), \forall s \in \mc{S} \tag{1}$

\begin{matrix} (2) & V^{*} = max_{π} V^{π} (s), \forall s \in S \end{matrix}

$V^\ast = \max_\pi V^\pi (s), \forall s \in \mc S \tag{2}$

\begin{matrix} (3) & V^{*} = V^{π^{*}} \end{matrix}

$V^\ast = V^{\pi^\ast} \tag{3}$

Вопрос

Как доказать, что существует хотя бы один который удовлетворяет (1) одновременно для всех ? $\pi^\ast$ $s \in \mc{S}$

План доказательства

Построить оптимальное уравнение для использования в качестве временного суррогатного определения функции оптимального значения, которое мы докажем на шаге 2, что оно эквивалентно определению с помощью уравнения (2).
$\begin{matrix} (4) & V^{*} (s) = max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V^{*} (s^{'})] \end{matrix}$ $V^\ast(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V^\ast(s^\prime)] \tag{4}$
Вывести эквивалентность определения функции оптимального значения через уравнение (4) и уравнение (2).

(Обратите внимание, что на самом деле нам нужно только направление необходимости в доказательстве, поскольку достаточность очевидна, поскольку мы построили уравнение (4) из уравнения (2).)
Докажите, что существует единственное решение уравнения (4).
На шаге 2 мы знаем, что решение, полученное на шаге 3, также является решением уравнения (2), поэтому оно является функцией оптимального значения.
Из функции оптимального значения мы можем восстановить оптимальную политику, выбрав действие максимизатора в уравнении (4) для каждого состояния.

Детали шагов

$V^\ast(s) = V^{\pi^\ast}(s) = \mb E_a [Q^{\pi^\ast}(s, a)]$ , we have $V^{\pi^\ast}(s) \le \max_{a \in \mc A} Q^{\pi^\ast} (s, a)$ . And if there is any $\tilde{s}$ such that $V^{\pi^\ast} \neq \max_{a \in \mc A} Q^{\pi^\ast} (s, a)$ $Q^{\ast} (s, a) = Q^{\pi^\ast} (s, a)$ over $a$ .

(=>)

Follows by step 1.

(<=)

i.e. If $\tilde V$ satisfies $\tilde V(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) \tilde V(s^\prime)]$ , then $\tilde V(s) = V^\ast(s) = \max_\pi V^\pi(s), \forall s \in \mc S$ .

Define the optimal Bellman operator as

\begin{matrix} (5) & T V (s) = max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V (s^{'})] \end{matrix}

$\mc T V(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V(s^\prime)] \tag{5}$ So our goal is to prove that if

\tilde{V} = T \tilde{V}

$\tilde V = \mc T \tilde V$ , then

\tilde{V} = V^{*}

$\tilde V = V^\ast$ . We show this by combining two results, following Puterman[1]:

a) If $\tilde V \ge \mc T \tilde V$ , then $\tilde V \ge V^\ast$ .

b) If $\tilde V \le \mc T \tilde V$ , then $\tilde V \le V^\ast$ .

Proof:

For any $\pi = (d_1, d_2, ...)$ ,

\begin{aligned} \tilde{V} & \geq T \tilde{V} = max_{d} [R_{d} + γ P_{d} \tilde{V}] \\ \geq R_{d_{1}} + γ P_{d_{1}} \tilde{V} \end{aligned}

$\begin{align} \tilde V &\ge \mc T \tilde V = \max_{d} [ R_d + \gamma \, P_d \tilde V] \\ &\ge R_{d_1} + \gamma \, P_{d_1} \tilde V \\ \end{align}$ Here

d

$d$ is the decision rule(action profile at specific time),

R_{d}

$R_d$ is the vector representation of immediate reward induced from

d

$d$ and

P_{d}

$P_d$ is transition matrix induced from

d

$d$ .

By induction, for any $n$ ,

\tilde{V} \geq R_{d_{1}} + \sum_{i = 1}^{n - 1} γ^{i} P_{π}^{i} R_{d_{i + 1}} + γ^{n} P_{π}^{n} \tilde{V}

$\tilde V \ge R_{d_1} + \sum_{i=1}^{n-1} \gamma^i P_\pi^i R_{d_{i+1}} + \gamma^n P_\pi^n \tilde V$ where

P_{π}^{j}

$P_\pi^j$ represents the

j

$j$ -step transition matrix under

π

$\pi$ .

Since

V^{π} = R_{d_{1}} + \sum_{i = 1}^{\infty} γ^{i} P_{π}^{i} R_{d_{i + 1}}

$V^\pi = R_{d_1} + \sum_{i=1}^{\infty}\gamma^i P_\pi^i R_{d_{i+1}}$ we have

\tilde{V} - V^{π} \geq \underset{\to 0 as n \to \infty}{\underset{⏟}{γ^{n} P_{π}^{n} \tilde{V} - \sum_{i = n}^{\infty} γ^{i} P_{π}^{i} R_{d_{i + 1}}}}

$\tilde V - V^\pi \ge \underbrace{\gamma^n P_\pi^n \tilde V -\sum_{i=n}^{\infty}\gamma^i P_\pi^i R_{d_{i+1}}}_{\rightarrow 0 \ \text{as}\ n\rightarrow \infty}$ So we have

\tilde{V} \geq V^{π}

$\tilde V \ge V^\pi$ . And since this holds for any

π

$\pi$ , we conclude that

\tilde{V} \geq max_{π} V^{π} = V^{*}

$\tilde V \ge \max_\pi V^\pi = V^\ast$ b)

Follows from step 1.

The optimal Bellman operator is a contraction in $L_\infty$ norm, cf. [2].

Proof: For any $s$ ,

\begin{aligned} | T V_{1} (s) - T V_{2} (s) | & = | max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V_{1} (s^{'})] - max_{a^{'} \in A} [R (s, a^{'}) + γ \sum_{s^{'} \in S} T (s, a^{'}, s^{'}) V (s^{'})] | \\ \overset{(*)}{\leq} | max_{a \in A} [γ \sum_{s^{'} \in S} T (s, a, s^{'}) (V_{1} (s^{'}) - V_{2} (s^{'}))] | \\ \leq γ ‖ V_{1} - V_{2} ‖_{\infty} \end{aligned}

$\begin{align} \left\vert \mc T V_1(s) - \mc TV_2(s) \right\vert &= \left\vert \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V_1(s^\prime)] -\max_{a^\prime \in \mc A} [ R(s, a^\prime) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a^\prime, s^\prime) V(s^\prime)]\right\vert \\ &\overset{(*)}{\le} \left\vert \max_{a \in \mc A} [\gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) (V_1(s^\prime) - V_2(s^\prime))] \right\vert \\ &\le \gamma \Vert V_1 - V_2 \Vert_\infty \end{align}$ where in (*) we used the fact that

max_{a} f (a) - max_{a^{'}} g (a^{'}) \leq max_{a} [f (a) - g (a)]

$\max_a f(a) - \max_{a^\prime} g(a^\prime) \le \max_a [f(a) - g(a)]$

Thus by Banach fixed point theorum it follows that $\mc T$ has a unique fixed point.

References

[1] Puterman, Martin L.. “Markov Decision Processes : Discrete Stochastic Dynamic Programming.” (2016).

[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf

LoveIris
источник