Я пытаюсь понять, как метод оптимизации на основе сопряжения работает для ограниченной оптимизации PDE. В частности, я пытаюсь понять, почему сопряженный метод более эффективен для задач, в которых число проектных переменных велико, но «число уравнений мало».
Что я понимаю:
Рассмотрим следующую проблему ограниченной оптимизации PDE:
где - (достаточно непрерывная) целевая функция переменных векторного дизайна и вектора переменных поля неизвестных которые зависят от переменных дизайна, и - остаточная форма PDE.
Ясно, что мы можем первые вариации I и R как
Вводя вектор множителей Лагранжа , изменение целевой функции можно записать в виде
Переставляя термины, мы можем написать:
Таким образом, если мы можем решить для такое, что∂ I
Тогда градиент оценивается только с точки зрения проектных переменныхβ .
Таким образом, алгоритм оптимизации, основанный на сопряженных элементах, будет проходить по следующим этапам:
- Учитывая текущие переменные дизайна
- Решите для переменных поля (из PDE)
- Решить для множителей Лагранжа (из присоединенного уравнения)
- Вычислить градиенты
- Обновление проектных переменных
Мой вопрос
Как этот сопутствующий «трюк» улучшает стоимость оптимизации за итерацию в случае, когда число проектных переменных велико? Я слышал, что стоимость оценки градиента для присоединенного метода не зависит от числа проектных переменных. Но как именно это правда?
Я уверен, что есть что-то очень очевидное, что я как-то упускаю из виду.
источник
Ответы:
Я думаю о стоимости с точки зрения линейной алгебры. (См. Эти заметки Стивена Дж. Джонсона , которые я считаю более интуитивными, чем метод множителей Лагранжа). Прямой подход сводится к решению для чувствительности напрямую:
который включает в себя решение линейной системы для каждого параметра в векторе , а затем оценкуβ
где обозначает полную производную, а обозначает частную производную. ∂d ∂
Сопутствующий подход отмечает, что
поэтому присоединенная переменная (множитель Лагранжа) может быть определена какλ
что соответствует присоединенному уравнению
Эта перегруппировка терминов требует только одного линейного решения вместо линейного решения для каждого параметра, что делает дешевую сопряженную оценку для случая многих параметров.
Это не совсем независимо; по-видимому, стоимость оценки и будет увеличиваться с увеличением количества параметров. Линейные решения, тем не менее, будут иметь тот же размер, пока размер не изменится. Предполагается, что решения намного дороже, чем оценки функций.( ∂ R / ∂ β )(∂I/∂β) (∂R/∂β) u
источник
В двух словах, преимущество заключается в том, что для вычисления производных сокращенной цели вам не обязательно знать производную от отношению к как отдельный объект, но только та его часть, которая приводит к изменениям в .I(β,u(β)) u(β) β I(β,u(β))
Позвольте мне перейти к нотации , я немного более комфортно с: ( является переменная дизайна, - переменная состояния, а - цель). Допустим, достаточно хорош для применения теоремы о неявной функции, поэтому уравнение имеет единственное решение которое непрерывно дифференцируемо по , и производную задается решением ( и - частные производные) ,u y J e ( y , u ) e ( y , u
Это означает, что вы можете определить приведенную цель , которая также дифференцируема (если есть). Один из способов охарактеризовать градиент - через производные по направлениям (например, вычислить все частные производные по базису пространства проектирования). Здесь производная по направлению в направлении задается правилом цепочки как Если хорош, единственное, что трудно вычислить, это для заданного . Это можно сделать, умножив наj(u):=J(y(u),u) J(y,u) ∇j(u) h
Однако, если мы найдем такой оператор , что то это должен быть требуемый градиент. Глядя на , мы можем написать (с являющимся присоединенным оператором), поэтому все, что нам нужно для вычисления, это . Используя это , это можно сделать, используя , то есть вычисление и установка В PDE-ограниченной оптимизации∇j ( 1 ) ⟨ J у ( у ( у ) , у ) , у ' ( у ) ( В ) * = В * * ( 3 )
источник