В техническом отчете о Галахаде [1] авторы утверждают, что в контексте общих проблем нелинейного программирования
На наш взгляд, никогда не было особых сомнений в том, что методы SQP [последовательного квадратичного программирования] будут более успешными [чем методы расширенного лагранжиана] в долгосрочной перспективе ...
Что может быть основанием для этой веры? Т.е. есть ли теоретические результаты, которые предполагают, что методы SQP должны быть более быстрыми / более надежными, чем методы расширенного лагранжиана?
[1] Galahad, библиотека многопоточных пакетов Fortran 90 для крупномасштабной нелинейной оптимизации, от Gould, Orban и Toint
источник
С точки зрения внешних итераций SQP должен победить, поскольку он включает в себя информацию о второй производной, тогда как расширенные методы лагранжиана, такие как ADMM, этого не делают.
Однако следует иметь в виду, что каждая итерация для этих методов предполагает решение линейной системы, поэтому для правильного сравнения необходимо учитывать, насколько легко решить эти системы.
Для расширенных лагранжевых (чередующихся) методов на каждой итерации вы решаете что-то вроде где - прямой оператор прямо из целевой функции, которая известна и с которой обычно легче иметь дело, или предварительное условие, и - параметр штрафа. (например, ваша проблема подверженная некоторой регуляризации и ограничениям).
Для методов SQP вы решаете что-то вроде где - это гессиан (или его приближение), который обычно неявно доступен только с точки зрения его воздействия на векторы, а - градиент. Гессиан содержит не только , но и комбинацию других матриц и инверсий матриц, полученных в результате линеаризации ограничений и регуляризации.
Предобусловливание гессианцев - довольно сложный бизнес, и его гораздо меньше изучают, чем предобусловливание проблем будущего. Стандартный метод состоит в аппроксимации обратного гессиана с помощью L-BFGS, но он имеет ограниченную эффективность, когда обратный гессиан имеет высокое значение. Другой популярный метод - аппроксимировать гессиан как сумму матрицы низкого ранга плюс легко инвертируемая матрица, но это также имеет ограниченную эффективность для сложных задач. Другие популярные методы оценки Гессена основаны на разреженных приближениях, но у проблем континуума часто есть гессианы, которые имеют плохие разреженные приближения.
источник