KKT в двух словах графически

13

Задача

Подтвердите правильность понимания KKT или нет. Ищите дальнейшие объяснения и подтверждения на KKT.

Фон

Попытка понять условия KKT, особенно дополнительные, которые всегда всплывают в статьях SVM. Мне не нужен список абстрактных формул, но мне нужно конкретное, интуитивное и графическое объяснение.

Вопрос

Если P, который минимизирует функцию стоимости f (X), находится внутри ограничения (g (P)> = 0), это решение. Кажется, ККТ не имеет отношения к этому делу.

введите описание изображения здесь

Кажется, KKT говорит, что если P не находится внутри ограничения, то решение X должно удовлетворять ниже на рисунке. Это все о KKT или я пропускаю другие важные аспекты?

введите описание изображения здесь

Другие уточнения

  1. Должно ли f (x) быть выпуклым для применения KKT?
  2. Должен ли g (x) быть линейным для применения KKT?
  3. Нужно ли λ в λ * g (X) = 0? Почему g (X) = 0 или g (Xi) = 0 недостаточно?

Ссылки


Обновление 1

Спасибо за ответы, но все еще трудно понять. Фокус на необходимости только здесь:

Не будет ли выполнено условие (2) в ответе Мэтью Ганна о неоптимальной точке (в зеленом круге) и KKT? И точка будет определена, если взглянуть на Гессиана как на ответ Марка Л. Стоуна?

Я полагаю, что другая ситуация седловых точек, но то же самое относится?

введите описание изображения здесь

введите описание изображения здесь user23658

понедельник
источник
1
Этот вопрос может привлечь больше внимания на сайте математики; Условия ККТ не обязательно являются «статистическими». Статистики заимствуют эти и другие результаты численного анализа для решения интересных статистических задач, но это больше вопрос математики.
user23658
1
(1) Если ограничения не связываются, задача оптимизации с ограничениями имеет то же решение, что и задача оптимизации без ограничений. (2) Ни должно быть выпуклым, ни g не должно быть линейным, чтобы условия KKT были необходимыми в оптимальном режиме. (3) Вам нужны особые условия (например, выпуклая задача, где выполняется условие Слейтера), чтобы условия KKT были достаточными для оптимальности. fg
Мэтью Ганн
2
Основная идея дополнительного условия расслабленности (то есть где g ( x ) 0 - ограничение) состоит в том, что если ограничение являетсяслабым(т.е. g ( x ) < 0 ) при оптимальном x , то штраф λ для стягивания ограничения равен 0. И если есть положительное наказание λ для ужесточения ограничений, то ограничение должно быть обязательным (т.е. г ( х ) = 0λg(x)=0g(x)0g(x)<0xλλg(x)=0). Если движение идет гладко, плата за проезд по мосту для другого автомобиля равна нулю. А если по мосту платно λ > 0 , то мост должен быть на пределе пропускной способности. λλ>0
Мэтью Ганн
1
Основная теорема о ККТ говорит, что если условия ККТ не выполняются в точке , то точка х не является оптимальной. Условия KKT необходимы для оптимального, но не достаточного. (Например, если функция имеет седловые точки, локальные минимумы и т. Д. ... условия KKT могут быть выполнены, но точка не является оптимальной!) Для некоторых классов задач (например, выпуклая задача, где выполняется условие Слейтера), KKT условия становятся достаточными условиями. xx
Мэтью Ганн

Ответы:

8

Основная идея условий KKT как необходимых условий для оптимума заключается в том, что если они не выполняются в допустимой точке , то существует направление δ , которое улучшит цель f, не увеличивая (и, следовательно, возможно, нарушая) ограничения. (Если условия KKT не выполняются при x, то x не может быть оптимальным, поэтому условия KKT необходимы для того, чтобы точка была оптимальной.)xδfxx

Представьте, что у вас есть проблема оптимизации:

minimize (over x)f(x)subject toj{1k}gj(x)0

Там , где и существует K ограничений.xRnk

Условия KKT и лемма Фаркаша

Пусть - вектор-столбец, обозначающий градиент f, оцененный в точке x .f(x)fx

Применительно к данной ситуации, Фаркаш лемма утверждает , что для любой точки ровно одна из следующих утверждений:xRn

  1. Существует такое , что k j = 1λRk и λ 0j=1kλjgj(x)=f(x)λ0
  2. Там существует такое , что JδRn и & delta ; 'F ( х ) < 0jδgj(x)0δf(x)<0

Что это значит? Это означает, что для любой возможной точки , либо:x

  • Условие (1) выполнено и условия KKT выполнены.
  • Условие (2) выполнено и существует допустимое направление δ которое улучшает целевую функцию без увеличения ограничений g j . (например, вы можете улучшить f , перейдя от x к x + ϵ δ )fgjfxx+ϵδ

Условие (1) утверждает, что существуют неотрицательные множители такие что условия KKT выполняются в точке x . (Геометрически это говорит о том, что - f лежит в выпуклом конусе, определяемом градиентами ограничений.)λxf

Условие (2) гласит, что в точке существует направление δ для перемещения (локально), такое что:xδ

  • Перемещение в направлении уменьшает целевую функцию (так как скалярное произведение F ( х ) и б меньше нуля).δf(x)δ
  • Двигаясь в направлении не увеличивает значение ограничений (поскольку произведение точекg j ( x ) и δ меньше или равно нулю для всех ограничений j ).δgj(x)δj

(Геометрически, допустимое направление δ определяет разделяющую гиперплоскость между вектором и выпуклым конусом, определяемым векторами g j ( x ) .)f(x)gj(x)

(Примечание: чтобы отобразить это в лемму Фаркаша , определите матрицу )A=[g1,g2,,gk]

Этот аргумент дает вам необходимость (но не достаточность) условий KKT в оптимальном режиме. Если условия KKT не выполнены (и удовлетворены ограничения), можно улучшить цель, не нарушая ограничений.

Роль ограничений квалификации

Что может пойти не так? Вы можете получить вырожденные ситуации, когда градиенты ограничений не точно описывают возможные направления движения.

Существует множество различных квалификационных ограничений , которые позволят использовать приведенный выше аргумент.

Мин, Макс интерпретация (IMHO наиболее интуитивно понятный)

Форма лагранжиана

L(x,λ)=f(x)+j=1kλjgj(x)

Вместо минимизации учетом ограничений g j , представьте, что вы пытаетесь минимизировать L, в то время как какой-то противник пытается максимизировать его. Вы можете интерпретировать множители λ i как штрафы (выбранные некоторым оппонентом) за нарушение ограничений. fgjLλi

Решение исходной задачи оптимизации эквивалентно:

minxmaxλL(x,λ)

То есть:

  1. xL
  2. λx

g2λ2

Слабая двойственность

f(x,y)

x^,y^minxf(x,y^)f(x^,y^)maxyf(x^,y)

x^y^

maxyminxf(x,y)minxmaxyf(x,y)

maxλminxL(x,λ)minxmaxλL(x,λ)

maxλminxL(x,λ)

Сильная двойственность

При определенных особых условиях (например, выпуклая задача, где выполняется условие Слейтера), вы имеете сильную двойственность (то есть свойство седловой точки).

maxλminxL(x,λ)=minxmaxλL(x,λ)

Этот прекрасный результат подразумевает, что вы можете изменить порядок задач.

  1. λ

  2. xL

λ

Мэтью Ганн
источник
Цените информацию и ссылки, чтобы заполнить пробелы в понимании. Позвольте мне подтвердить. Условие (1) означает, что KKT говорит, что для точки X должно быть решение, она должна удовлетворять λ * g (X) = 0, λ> = 0, а длина градиента g (X) равна λ раз что из f (X), в противном случае мы найдем градиент направления точек f (X), где можно найти меньший f (X ')?
пн
3
Условие Слейтера - это (просто) квалификация ограничения, которая может применяться к задачам выпуклой оптимизации, т. Е. Делает необходимым KKT. Выпуклость делает KKT достаточным. Таким образом, условие Слейтера для задачи выпуклой оптимизации, в которой целевая функция и ограничения являются выпуклыми и непрерывно дифференцируемыми, делает KKT необходимым и достаточным для глобального минимума. Условие Слейтера состоит в том, что существует, по крайней мере, одна выполнимая точка (то есть удовлетворяющая всем ограничениям), которая находится в строгой внутренней части всех нелинейных ограничений (все идет с линейными ограничениями, насколько это возможно).
Марк Л. Стоун
5

Выпуклость f (x) необходима для того, чтобы KKT было достаточным для того, чтобы x был локальным минимумом. Если f (x) или -g (x) не являются выпуклыми, то x, удовлетворяющий KKT, может быть локальным минимумом, седловой точкой или локальным максимумом.

При этом линейность g (x) вместе с непрерывно дифференцируемой функцией f (x) достаточна для того, чтобы условия KKT были необходимы для локального минимума. g (x) линейность означает, что условие ограничения линейности для KKT, являющегося обязательным для локального минимума, выполнено. Тем не менее, существуют другие менее ограничивающие ограничения, которые достаточны для того, чтобы условия KKT были необходимы для локального минимума. См. Раздел «Условия регулярности» (или квалификации ограничений) https://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions .

Если локальный минимум не имеет «активных» ограничений (поэтому в случае только ограничения неравенства это ограничение не удовлетворяется равенством), множители Лагранжа, связанные с такими ограничениями, должны быть равны нулю, и в этом случае KKT сводится к условию, что градиент объектива = 0. В этом случае нулевая «стоимость» равна оптимальному значению объективной эпсилон-точки ужесточения ограничения.

Дополнительная информация :

Целевая функция и ограничения являются выпуклыми и непрерывно дифференцируемыми, что означает, что KKT достаточно для глобального минимума.

Если целевая функция и ограничения непрерывно дифференцируемы и ограничения удовлетворяют квалификации ограничения, KKT необходим для локального минимума.

Если целевая функция и ограничения непрерывно дифференцируемы, выпуклы и ограничения удовлетворяют квалификации ограничения, KKT необходим и достаточен для глобального минимума.

ZZTHZHZ

Марк Л. Стоун
источник