Рассмотрим следующее дифференциальное уравнение где - это состояние, а - управляющая переменная. Решение дается где - заданное начальное состояние.xux(t)=x0+∫ t 0 f(x(s),u(s))ds. х0:=х(0)
Теперь рассмотрим следующую программу где \ rho> 0 обозначает предпочтение времени, V (\ cdot) - значение, а F (\ cdot) целевая функция. Классическим экономическим применением является модель оптимального роста Рамси-Касс-Купманса. Уравнение Гамильтона-Якоби-Беллмана определяется как \ begin {align} \ rho V (x) = \ max_u [F (x, u) + V '(x) f (x, u)], \ quad \ forall t \ в [0, \ infty). \ конец {} Align ρ>0V(⋅)F(⋅) ρ V ( x ) = max u [ F ( x , u ) + V ′ ( x ) f ( x , u ) ] ,
Скажем , я решал HJB для . Оптимальное управление задается как
Вики статья говорит
... но при решении по всему пространству состояний уравнение HJB является необходимым и достаточным условием для оптимума.
В Bertsekas (2005) « Динамическое программирование и оптимальное управление» , том 1, 3-е изд., В предложении 3.2.1 он утверждает, что решение для является оптимальной функцией стоимости, а соответствующий оптимален. Однако он явно объявляет это как теорему достаточности.
На самом деле, я просто хочу убедиться, что, если я решил HJB и восстановил связанные состояния и управлял траекториями, мне не нужно беспокоиться о каких-либо дополнительных условиях оптимальности.
Решение
Я пытаюсь
Я думаю, что я смог вывести необходимые условия из принципа максимума с помощью самого уравнения HJB.
Определите гамильтониан
тогда мы имеем
что
Определите произвольную функцию с . Теперь исправьте
где является параметром. Вставьте термин в максимизированный гамильтониан, который дает
При мы имеем оптимальное решение. Таким образом, чтобы получить условие первого порядка
Теперь определите присоединенную переменную с помощью
Дифференцировать по времени
и обратите внимание, что
Вставьте все в фокус, который дает
Вот и все. Таким образом, решение HJB действительно необходимо и достаточно (здесь опущено) для оптимальности. Кто-то должен добавить это в вики. Может сэкономить время для людей, думающих о таких проблемах (думаю, не так уж много).
Однако условие трансверсальности отсутствует.
II попытка
Определить функционал выплаты
Обратите внимание, что по определению . Добавьте нейтральный термин к функции выплаты
Интеграция по частям правого слагаемого и правой части дает
Повторно замените этот термин
Определить
который дает
FOC для максимального значенияJ ε = ∫ ∞ 0 e - ρ t [ H x q + H u p + q
Поскольку и не ограничены, мы должны иметь
источник
Ответы:
(Возможно, это следует рассматривать как комментарий.)
Если вы решили уравнение HJB, достаточно получить оптимальное решение. Таким образом, вам не «нужно беспокоиться о каких-либо других условиях оптимальности», которые, как мне кажется, отвечают на ваш вопрос.
Похоже, что вы обеспокоены «необходимым» компонентом теоремы. Необходимая сторона утверждения состоит в следующем: если существует оптимальное решение, должно существовать решение уравнения HJB.
Я не работал с этой конкретной проблемой, но в целом ответ таков: мы не ожидаем, что у нас будет дифференцируемая функция V. Поэтому у нас нет решения уравнения, как оно сформулировано. Вместо этого нам нужно посмотреть на обобщенные производные и преобразовать уравнение HJB в неравенство. В этом случае вы можете получить «раствор вязкости». Если мы расширим использование обобщенных производных, то можно будет доказать, что такое решение всегда существует. Взглянув на ваши доказательства, они не помогут в условиях необходимости, поскольку вы предполагаете дифференцируемость.
источник