Формируя лагранжиан, ища стационарные точки и устраняя управление мы получаем условия первого порядка Предварительно умножив на в первом уравнении и во втором, мы можем записать нормальные уравнения Мы можем интерпретировать их как отдельные шаги обратных эйлеровых приближений к дифференциальным уравнениям
Мой вопрос: хорошо ли известна эта связь? Обсуждается ли это в стандартных методах временного перехода или оптимизации? (Мне кажется, это обеспечивает какую-то интуитивную связь между ними.)
Идея кажется достаточно простой, что она должна быть хорошо известна, но ни поиск литературы, ни общение с людьми не дали мне хорошего источника, где это обсуждается. Самым близким, что я нашел, является статья О. Шерцера и Дж. Вайхерта (J. Math Imaging Vision 12 (2000) pp. 43-63), в которой говорится о связи в первом предложении тезисов (!), Но не предоставить любые ссылки или изучить связь на любой глубине.
В идеале я ищу ссылку, которая не только устанавливает связь, но и исследует некоторые последствия (например, можно было бы представить предварительное условие задачи оптимизации с помощью дешевого шага Эйлера вперед).
источник
Ответы:
Как упоминал Джед Браун, связь между градиентным спуском в нелинейной оптимизации и переходом во времени динамических систем переоткрывается с некоторой частотой (понятно, поскольку это очень удовлетворительная связь с математическим разумом, поскольку она связывает две, казалось бы, разные области). Однако это редко оказывается полезным соединением, особенно в контексте, который вы описываете.
В обратных задачах, люди заинтересованы в решении (некорректных) операторного уравнения с не в диапазоне . (Вашу задачу оптимального управления можно рассматривать как один ее экземпляр с и .) Несколько стратегий регуляризации (таких как Тихонов или Ландвебер) можно интерпретировать как единое псевдо-время шаг определенного класса. Идея состоит в том, чтобы затем использовать интерпретацию параметра регуляризации в качестве длины шага, чтобы получить некоторые (адаптивные, апостериорные) правила выбора для параметра - фундаментальную проблему в обратных задачах - и, возможно, сделать несколько шагов псевдо-времени для приблизиться к истинному нерегулярному решению (аналогичноy δ F F = A - 1 y δ = y 0F(u)=yδ yδ F F=A−1 yδ=y0 численное продолжение ). Это иногда называется непрерывной регуляризацией и обычно обсуждается в контексте методов установки уровня; см., например, главу 6.1 Kaltenbacher, Scherzer, Neubauer: итерационные методы регуляризации для нелинейных некорректных задач (de Gruyter, 2008).
Второй контекст, в котором эта идея неоднократно возникает, - нелинейная оптимизация: если вы посмотрите на шаг градиентного спуска для , то вы можете интерпретировать это как вперед шаг Эйлера для динамической системы Как отметил Джед Браун, это на первый взгляд дает только не очень удивительное наблюдение, что этот метод сходится, при условии, что шаги псевдо времени достаточно малы. Интересная часть возникает, когда вы смотрите на динамическую систему и спрашиваете себя, каковы свойства непрерывного решения так называемого градиентного потокаminxf(x)
Есть ли естественное функциональное пространство, в котором живет градиентный поток? Если это так, ваш шаг градиента должен быть взят из того же пространства (т. Е. Дискретизация должна соответствовать). Это приводит, например, к вычислению представлений Рисса градиента относительно различных внутренних произведений (иногда называемых градиентами Соболева ) и, на практике, к предварительно обусловленным итерациям, которые сходятся гораздо быстрее.
Возможно, должен принадлежать не векторному пространству, а многообразию (например, симметричным положительно определенным матрицам), или поток градиента должен сохранять определенную норму . В этом случае вы можете попытаться применить сохраняющие структуру схемы пошагового изменения времени (например, с использованием отката относительно соответствующей группы Ли или геометрического интегратора).x x
Если не дифференцируемо, но выпукло, шаг Эйлера вперед соответствует методу субградиентного спуска, который может быть очень медленным из-за ограничений размера шага. С другой стороны, неявный шаг Эйлера соответствует методу проксимальной точки , к которому такие ограничения не применяются (и который, таким образом, стал очень популярным, например, при обработке изображений).f
Аналогичным образом, такие методы могут быть значительно ускорены с помощью этапов экстраполяции. Один из способов мотивировать их - наблюдать, что стандартные методы первого порядка страдают от необходимости делать много маленьких шагов близко к минимизаторам, потому что направления градиента «колеблются» (представьте себе стандартную иллюстрацию того, почему сопряженные градиенты превосходят крутой спуск). Чтобы исправить это, можно «ослабить» итерацию, не решая динамическую систему первого порядка, а систему второго порядка : для соответственно выбранного . При правильной дискретизации это приводит к итерации (известной как метод Поляка для тяжелых шариков ) вида
(Я должен добавить, что, насколько мне известно, в большинстве этих случаев интерпретация как динамическая система не была строго необходима для вывода или доказательства сходимости алгоритма; можно утверждать, что такие идеи, как «неявное или явное» или производные Ли на самом деле более фундаментальны, чем динамические системы или методы градиентного спуска. Тем не менее, никогда не помешает иметь другую точку зрения на проблему.)
РЕДАКТИРОВАТЬ: Я только что наткнулся на отличный пример из второго контекста, где интерпретация ODE используется для определения свойств экстраградиентного метода Нестерова и предложить улучшения: http://arxiv.org/pdf/1503.01243.pdf (Обратите внимание, что это также пример точки Джеда Брауна, в которой авторы по существу заново открывают пункт 4 выше, очевидно, не зная об алгоритме Поляка.)
РЕДАКТИРОВАТЬ 2: И как показатель того, как далеко вы можете это сделать, см. Стр. 5 http://arxiv.org/pdf/1509.03616v1.pdf .
источник
Хотя я не видел точной формулировки, которую вы здесь записали, я продолжаю видеть разговоры, в которых люди «заново открывают» связь с интеграцией некоторой переходной системы и продолжают записывать алгоритм, алгебраически эквивалентный одной форме или другой из существующего градиентного спуска или метод, подобный ньютону, и не в состоянии цитировать кого-либо еще. Я думаю, что это не очень полезно, потому что вывод в основном таков: «Пока вы делаете достаточно маленькие шаги, метод в конечном итоге сходится к локальному минимуму». Что ж, в 2014 году исполняется 45 лет со дня выхода статьи Филиппа Вулфа, показывающей, как это сделать принципиально. Существует также хорошая теория для получения q-квадратичной или q-суперлинейной сходимости из псевдотранзитивного продолжения и связанных с ним методов, таких как Левенберг-Марквардт.
Если вы хотите получить экземпляр этого повторного открытия, используя ньютоноподобную формулировку для решения алгебраических уравнений (то есть классического псевдопереходного продолжения) от математика с более чем 600 работами (так что, возможно, он докажет то, что вы находите интересным), посмотрите на " Метод динамических систем »А.Г. Рамма [1].
Если бы интуиция, полученная при рассмотрении переходной системы, привела к практическим алгоритмам, которые были бы быстрее или надежнее, я думаю, мы бы увидели цитируемые статьи по этому вопросу. Я думаю, что нет ничего загадочного в том, что у Носедаля и Райта более 13000 ссылок, а в книге Рамма - около 80 (в основном это цитаты из себя).
[1] Я могу посоветовать вам не сообщать профессору Рамму, что его DSM алгебраически эквивалентен чему-то, что было в бесчисленных технических пакетах в течение десятилетий, или вы можете выкрикнуть себя из комнаты. #gradstudentmemories
источник
Если методы ODE могут внести вклад в оптимизацию, есть ли действительно простой пример проблемы, чтобы показать это?
x˙=−∇f(x)
x¨=βx˙−α∇f(x)
f
Соломенный человек: есть ли решатель ODE, который делает разумную работу над или как предлагает Кристиан Клэйсон для сказать функцию Розенброка, в 2d или 10d? Если это глупо, у кого-нибудь есть лучший соломенный человек? (Обратите внимание, что «разумно», а не «конкурирует с современными оптимизаторами». Я думаю, что нужно уменьшить размер шага / допуск, и, возможно, решающее решение).
На практике «слишком большие» шаги намного более проблематичны, чем «слишком маленькие» - колебания беспорядочные.
Я наивно думал, что теория управления может помочь. Численные рецепты с. 915 описывает
PI адаптивное управление размером шага для ODE, но я не знаю, используется ли это на практике.
источник