Доказательство эквивалентных формул гребневой регрессии

15

Я прочитал самые популярные книги в области статистического обучения

1- Элементы статистического обучения.

2- Введение в статистическое обучение .

Оба упоминают, что у регрессии гребня есть две формулы, которые эквивалентны. Есть ли понятное математическое доказательство этого результата?

Я также прошел Cross Validated , но я не могу найти однозначного доказательства там.

Кроме того, LASSO будет пользоваться такими же доказательствами?

введите описание изображения здесь

jeza
источник
2
en.wikipedia.org/wiki/…
Тейлор,
1
Лассо не является формой регрессии гребня.
Сиань
@jeza, не могли бы вы объяснить, чего не хватает в моем ответе? Это действительно выводит все, что может быть выведено о связи.
Рой
@jeza, не могли бы вы быть конкретным? Если вы не знаете лагранжеву концепцию для ограниченной задачи, трудно дать краткий ответ.
Рой
1
@jeza, ограниченная задача оптимизации может быть преобразована в оптимизацию функции Лагранжа / условий ККТ (как объяснено в текущих ответах). Этот принцип имеет много разных простых объяснений по всему Интернету. В каком направлении необходимо больше объяснений? Объяснение / доказательство множителя / функции Лагранжа, объяснение / доказательство того, как эта проблема представляет собой случай оптимизации, относящийся к методу Лагранжа, разности ККТ / Лагранжа, объяснение принципа регуляризации и т. Д.?
Секст Эмпирик

Ответы:

19

Классическая регрессия хребта ( регуляризация Тихонова ) дается:

argminx12xy22+λx22

Утверждение выше состоит в том, что следующая проблема эквивалентна:

argminx12xy22subject tox22t

Определим как оптимальное решение первой проблемы, а как оптимальное решение второй задачи. x^x~

Утверждение об эквивалентности означает, что .t,λ0:x^=x~ т А , 0
А именно, у вас всегда может быть пара и такое решение проблемы одно и то же.tλ0

Как мы могли найти пару?
Ну, решая проблемы и глядя на свойства решения.
Обе проблемы являются выпуклыми и гладкими, поэтому все должно быть проще.

Решение для первой задачи дается в точке, где градиент исчезает, что означает:

x^y+2λx^=0

ККТ второй проблемы состояния:

x~y+2μx~=0

и

μ(x~22t)=0

Последнее уравнение предполагает, что либо либоμ=0x~22=t .

Обратите внимание, что 2 базовых уравнения эквивалентны.
А именно, если иx^=x~μ=λ оба уравнения выполнены.

Таким образом, это означает, что в случае нужно установить что означает, что для достаточно большого для того, чтобы оба были эквивалентны, нужно установитьy22tμ=0tλ=0 .

В другом случае нужно найтиμ где:

yt(I+2μI)1(I+2μI)1y=t

Это в основном, когдаx~22=t

Как только вы обнаружите, чтоμ решения столкнутся.

Что касается случая (LASSO), он работает с той же идеей. Единственная разница в том, что мы не закрыли для решения, поэтому получение соединения сложнее.L1

Взгляните на мой ответ по кросс-проверке StackExchange λQ291962 и обработке сигналов StackExchange Q21730 - Значение в базовом преследовании .

Замечание
Что на самом деле происходит?
В обеих задачах пытается быть как можно ближе к . В первом случае исчезнет из первого слагаемого (расстояние ), а во втором случае целевая функция исчезнет. Разница в том, что в первом случае нужно сбалансировать норму . Когда становится выше, баланс означает, что вы должны сделать меньше. Во втором случае есть стена, вы приближаете ближе и ближе,xy
x=yL2
L2xλx
xyпока вы не попали в стену, которая является ограничением для его нормы (по ). Если стена достаточно далеко (высокое значение ) и достаточно зависит от нормы тогда я не имею значения, точно так же, как имеет отношение только к ее значению, умноженному на норму и становится значимым. Точная связь осуществляется с помощью лагранжиана, указанного выше.t
tyλy

Ресурсы

Я нашел эту газету сегодня (03/04/2019):

Royi
источник
означает, что \ lambda и \ t должны быть одинаковыми. Потому что я не вижу этого в доказательстве. спасибо
Jeza
@jeza, как я писал выше, для любого существует (не обязательно равный но функция и данные ), такие что решения двух форм одинаковы. tλ0tty
Рой
3
@jeza, оба & являются по существу свободными параметрами здесь. Как только вы укажете, скажем, , вы получите конкретное оптимальное решение. Ноλtλt остается свободным параметром. Таким образом, на данный момент утверждается, что может быть некоторое значениеt , которое дало бы такое же оптимальное решение. Там практически отсутствуют ограничения на то , что должно быть; это не значит, что это должна быть какая-то фиксированная функция от λ , например, t = λ / 2 или что-то в этом роде. tλt=λ/2
gung - Восстановить Монику
@ Rooyi, я хотел бы знать 1 - почему в вашей формуле есть (1/2), а в рассматриваемых формулах нет? 2- используете ли KKT, чтобы показать эквивалентность двух формул? 3 - если да, я все еще не вижу этой эквивалентности. Я не уверен, но то, что я ожидаю увидеть, это доказательство того, что формула один = формула два.
19
1. Просто проще, когда вы дифференцируете термин LS. Вы можете перейти от моего к OP λ в два раза. 2. Я использовал KKT для 2-го случая. Первый случай не имеет ограничений, поэтому вы можете просто решить его. 3. Между ними нет уравнения в замкнутой форме. Я показал логику и как вы можете создать график, соединяющий их. Но, как я уже писал, он будет меняться для каждого y (это зависит от данных). λλy
Рой
9

Менее математически строгий, но, возможно, более интуитивный подход к пониманию происходящего заключается в том, чтобы начать с версии ограничения (уравнение 3.42 в вопросе) и решить ее, используя методы «множителя Лагранжа» ( https: //en.wikipedia). .org / wiki / Lagrange_multiplier или ваш любимый текст с многовариантным исчислением). Просто помните, что в исчислении является вектором переменных, но в нашем случае x является постоянным, а β является вектором переменных. После применения метода множителей Лагранжа вы в конечном итоге с первым уравнением (3.41) (после того, как выбрасывание экстра - λ т , которая постоянна по отношению к минимизации и могут быть проигнорированы).xxβλt

Это также показывает, что это работает для лассо и других ограничений.

Грег Сноу
источник
8

Возможно, стоит прочитать о лагранжевой двойственности и более широкой взаимосвязи (иногда эквивалентной) между:

  • оптимизация с учетом жестких (то есть нерушимых) ограничений
  • оптимизация со штрафами за нарушение ограничений.

Краткое введение в слабую дуальность и сильную дуальность

Предположим, у нас есть функция двух переменных. Для любого х и у , мы имеем:f(x,y)x^y^

minxf(x,y^)f(x^,y^)maxyf(x^,y)

Так что имеет место для любых х и у него также считает , что:x^y^

maxyminxf(x,y)minxmaxyf(x,y)

Это известно как слабая двойственность . В определенных обстоятельствах у вас также есть сильная двойственность (также известная как свойство седловой точки ):

maxyminxf(x,y)=minxmaxyf(x,y)

Когда сильная двойственность имеет место, решение двойной проблемы также решает основную проблему. В каком-то смысле это одна и та же проблема!

Лагранжиан для регрессии с ограниченным гребнем

Позвольте мне определить функцию как:L

L(b,λ)=i=1n(yxib)2+λ(j=1pbj2t)

Мин-макс интерпретация лагранжиана

Задача регрессии Риджа, подверженная жестким ограничениям:

minbmaxλ0L(b,λ)

Вы выбираете , чтобы свести к минимуму объективное, сознающего , что после того, как б определена, ваш противник будет установить λ к бесконечности , если вы выбрали б такой , что Е р J = 1 б 2 J > т .bbλbj=1pbj2>t

Если сильная двойственность имеет место (что и здесь, потому что условие Слейтера удовлетворяется при ), вы можете достичь того же результата, изменив порядок:t>0

maxλ0minbL(b,λ)

Здесь ваш противник сначала выбирает ! Затем вы выбираете b, чтобы минимизировать цель, уже зная свой выбор λ . Часть min b L ( b , λ ) (взятая λ как заданная) эквивалентна 2-й форме вашей задачи регрессии Риджа.λ bλminbL(b,λ)λ

Как видите, это не является результатом регрессии Риджа. Это более широкое понятие.

Ссылки

(Я начал этот пост после экспозиции, прочитанной Рокафелларом.)

Рокафеллар, RT, выпуклый анализ

Вы также можете изучить лекции 7 и 8 из курса профессора Стивена Бойда по выпуклой оптимизации.

Мэтью Ганн
источник
обратите внимание, что ваш ответ может быть распространен на любую выпуклую функцию.
81235
6

Они не эквивалентны .

Для ограниченной задачи минимизации

(1)minbi=1n(yxib)2s.t.j=1pbj2t,b=(b1,...,bp)

решаем путем минимизации над соответствующий лагранжевb

(2)Λ=i=1n(yxib)2+λ(j=1pbj2t)

Здесь - это заданная экзогенно граница, λ 0 - неотрицательный множитель Каруша-Куна-Таккера, и как бета-вектор, так и λ должны быть определены оптимально с помощью процедуры минимизации, заданной t . tλ0 λ t

Сравнивая и уравнение ( 3.41 ) в посте ОП, получается, что оценка Риджа может быть получена как решение (2)(3.41)

(3)minb{Λ+λt}

Поскольку в минимизируемая функция представляется лагранжевой в задаче минимизации с ограничениями плюс термин, не включающий b , может показаться, что два подхода действительно эквивалентны ...(3)b

Но это не правильно, потому что в регрессии Риджа мы минимизируем более при λ > 0 . Но в объективе задачи минимизации с ограничениями допущение, что λ > 0 налагает условие, что ограничение является обязательным , т.е.b λ>0λ>0

j=1p(bj,ridge)2=t

λ=0λ=0λ>0).

So the two formulation are not equivalent. Nevertheless, Matthew Gunn's post shows in another and very intuitive way how the two are very closely connected. But duality is not equivalence.

Alecos Papadopoulos
источник
@MartijnWeterings Thanks for the comment, I have reworked my answer.
Alecos Papadopoulos
@MartijnWeterings I do not see what is confusing since the expression written in your comment is exactly the expression I wrote in my reworked post.
Alecos Papadopoulos
1
This was the duplicate question I had in mind were the equivalence is explained very intuitively to me math.stackexchange.com/a/336618/466748 the argument that you give for the two not being equivalent seems only secondary to me, and a matter of definition (the OP uses λ0 instead of λ>0 and we could just as well add the constrain t<βOLS22 to exclude the cases where λ=0) .
Sextus Empiricus
@MartijnWeterings When A is a special case of B, A cannot be equivalent to B. And ridge regression is a special case of the general constrained minimization problem, Namely a situation to which we arrive if we constrain further the general problem (like you do in your last comment).
Alecos Papadopoulos
Certainly you could define some constrained minimization problem that is more general then ridge regression (like you can also define some regularization problem that is more general than ridge regression, e.g. negative ridge regression), but then the non-equivalence is due to the way that you define the problem and not due to the transformation from the constrained representation to the Lagrangian representation. The two forms can be seen as equivalent within the constrained formulation/definition (non-general) that are useful for ridge regression.
Sextus Empiricus