Чувствительность BFGS к начальным гессенским приближениям

9

Я пытаюсь реализовать метод Broyden-Fletcher-Goldfarb-Shanno, чтобы найти минимум функции. Мне нужно два начальных предположения & и начальное приближение матрицы Гессе . Единственное требование, которое я нахожу для заключается в том, что если гессиан симметрично положительно определен, то же самое должно быть и в . Глядя на википедию, я вижу, что типичным начальным приближением является (единичная матрица). Всегда ли это хороший начальный ? Есть ли какая-то причина, почему я мог бы хотеть выбрать что-нибудь кроме ? Могут ли другие варианты B, удовлетворяющие тем же свойствам матрицы, сильно повлиять на сходимость метода? x1x0B0B0B0B0=IB0I

Пол
источник

Ответы:

6

Если у вас есть оправданный Гесс приближение, то лучше использовать его , а не произвольная .B0=I

Изменить: Обоснование состоит в том, что если вы начнете близко к решению , начальная скорость сходимости (для любого ) -шаговая линейная с -шаговым коэффициентом сходимостиесли это для некоторой поправки ранга единичной матрицы. Таким образом, попытка сделать это маленьким очень ценно. (Это эквивалентно предварительной обработке системы.) Коэффициент сходимости улучшается со временем и в конечном итоге приближается к нулю (суперлинейная сходимость), но во многих реальных задачах (особенно многомерных) никогда не делается достаточно итераций, чтобы достичь суперлинейного режима. Таким образом, начальная скорость довольно важна.xr>0r+1r+1q=B01f(x)G<1rG

Одним важным случаем является решение нелинейных задач наименьших квадратов (минимизировать ), где приближение Гаусса-Ньютона исходного гессиана может быть вычисляется без необходимости вторых производных. Его использование делает метод BFGS аффинно-инвариантным, т. Е. Инвариантным относительно линейных преобразований таких как метод Ньютона, что обычно очень полезно.F(x)22B0=F(x0)TF(x0)x

Еще один важный случай, когда вы решаете ряд связанных проблем. Часто перезапуск решателя с окончательным гессенским приближением предыдущей задачи значительно уменьшает количество необходимых итераций.

Арнольд Ноймайер
источник
Если ожидается, что гессиан будет симметрично положительно определенным, любая симметричная положительно определенная матрица все еще приведет к сходимости, но скорость сходимости зависит от того, насколько близко напоминает гессиан? B0B0
Павел
Нет, в конце концов, BFGS забывает о начальной матрице, поэтому сходимость как всегда имеет один и тот же порядок. Но это, конечно, не интересно, потому что вы никогда не делаете бесконечно много шагов. k
Вольфганг Бангерт
@ Пол: см. Мое редактирование.
Арнольд Ноймайер