Преимущества подхода к проблеме путем формулирования функции стоимости, которая является глобально оптимизируемой

Это довольно общий вопрос (т.е. не обязательно специфический для статистики), но я заметил тенденцию в машинном обучении и статистической литературе, где авторы предпочитают придерживаться следующего подхода:

Подход 1 : Получить решение практической проблемы, сформулировав функцию стоимости, для которой можно (например, с вычислительной точки зрения) найти глобально оптимальное решение (например, путем формулировки выпуклой функции стоимости).

скорее, чем:

Подход 2 : Получить решение той же проблемы, сформулировав функцию стоимости, для которой мы, возможно, не сможем получить глобально оптимальное решение (например, мы можем получить только локально оптимальное решение для нее).

Обратите внимание, что строго говоря, две проблемы разные; Предполагается, что мы можем найти глобально оптимальное решение для первого, но не для второго.

Помимо других соображений (например, скорость, простота реализации и т. Д.), Я ищу:

Объяснение этой тенденции (например , математические или исторические аргументы)
Преимущества (практические и / или теоретические) для следования подходу 1 вместо 2 при решении практической задачи.

optimization function Амелио Васкес-Рейна
источник

Ответы:

Я считаю, что цель должна состоять в том, чтобы оптимизировать интересующую вас функцию. Если это число ошибочных классификаций, а не, скажем, биномиальной вероятности, то вам следует попытаться минимизировать количество ошибочных классификаций. Однако по ряду упомянутых практических причин (скорость, реализация, нестабильность и т. Д.) Это может быть не так просто и даже невозможно. В этом случае мы выбираем приближенное решение.

Я знаю в основном две стратегии приближения; Либо мы придумываем алгоритмы, которые пытаются напрямую аппроксимировать решение исходной проблемы, либо мы переформулируем исходную проблему как более разрешимую проблему (например, выпуклые релаксации).

Математический аргумент в пользу предпочтения одного подхода над другим , можем ли мы понимаем , а) свойства раствора фактически вычислен и б) насколько хорошо решение приближает решение проблемы на самом деле мы заинтересованы.

Я знаю много результатов в статистике, где мы можем доказать свойства решения задачи оптимизации. Мне кажется более сложным анализировать решение алгоритма, когда у вас нет математической формулировки того, что он вычисляет (например, что он решает данную задачу оптимизации). Я, конечно, не буду утверждать, что вы не можете, но это кажется теоретическим преимуществом , если вы можете дать четкую математическую формулировку того, что вы вычисляете.

Мне неясно, дают ли такие математические аргументы практическую пользу подходу 1 по сравнению с подходом 2. Конечно, есть кто-то, кто не боится невыпуклой функции потерь .

NRH
источник

Спасибо за ссылку на выступление Янна ЛеКуна. Я с нетерпением жду этого.

Амелио Васкес-Рейна

@NRH дал ответ на этот вопрос (более 5 лет назад), поэтому я просто предложу подход 3, который объединяет подходы 1 и 2.

Подход 3 :

Сформулируйте и решите для глобальной оптимальности выпуклую или в любом случае глобально оптимизируемую (не обязательно выпуклую) проблему, которая «близка» к проблеме, которую вы действительно хотите решить.
Используйте глобально оптимальное решение из шага 1 в качестве начального (начального) решения невыпуклой задачи оптимизации, которую вы действительно хотите решить (или хотите решить больше, чем проблема, решенная в шаге 1). Надеюсь, что ваше исходное решение находится в «области притяжения» к глобальному оптимуму относительно метода решения, используемого для решения невыпуклой задачи оптимизации, которую вы действительно хотите решить.

Марк Л. Стоун
источник

Пожалуйста, приведите конкретный пример.

ГорацийT

Это не совсем случай Марка, но общий подход во многих проблемах компьютерного зрения состоит в том, чтобы использовать градуированную невыпуклость для получения последовательности «хороших» локальных оптимумов по связанным проблемам. Конкретным примером является грубый или тонкий оптический поток, где для пары изображений используется грубое выравнивание, чтобы начать поиск в более мелких масштабах, перемещаясь через пару пирамид изображений .

GeoMatt22

@horaceT Допустим, вы хотите решить нелинейную задачу наименьших квадратов ~ , которая не является выпуклой. На шаге 1 вы можете решить линейную задачу наименьших квадратов ~ , которая является выпуклой и может быть решена с глобальной оптимальностью. Затем на шаге 2 используйте качестве начальных значений для нелинейных наименьших квадратов. Проблемы похожи, но ошибки обрабатываются по-разному. Существует много проблем, в которых требуется невыпуклое наказание (для этапа 2), но оно может быть заменено выпуклым штрафом для этапа 1. Также возможны множественные итерации.

y

$y$

a e^{b x}

$ae^{bx}$

y

$y$

a a + b b x

$aa + bb x$

a = e^{a a_{o p t i m a l}}, b = b b_{o p t i m a l}

$a = e^{aa_{optimal}}, b = bb_{optimal}$

Марк Л. Стоун

@ GeoMatt22 То, что вы описали, сходно по духу и пересекается с так называемыми гомотопическими методами, в которых путь к решению проблемы, которую вы действительно хотите решить, определяется путем решения ряда задач, в которых параметр, такой как ограничение ограничения, постепенно изменяется и решаются последовательные проблемы, для которых первую проблему легко решить с нуля. Это действительно может быть случай, когда первая проблема является выпуклой или иначе поддается решению, но более поздние проблемы могут и не быть, даже если их оптимальное решение может быть непрерывным по параметру.

Марк Л. Стоун