У меня возникли некоторые проблемы с выводом решения для регрессии гребня.
Я знаю регрессионное решение без условия регуляризации:
Но после добавления термина L2 к функции стоимости, получается решение
У меня возникли некоторые проблемы с выводом решения для регрессии гребня.
Я знаю регрессионное решение без условия регуляризации:
Но после добавления термина L2 к функции стоимости, получается решение
Достаточно изменить функцию потерь, добавив штраф. В матричных терминах начальная функция квадратичных потерь становится
Давайте будем опираться на то, что мы знаем, а именно на то, что всякий раз, когда матрица модели равна , вектор ответа равен , а параметр -vector равен , целевой функцииX n y p βn×p X n y p β
(которое является суммой квадратов невязок) минимизируется, когда решает нормальные уравненияβ
Регрессия гребня добавляет еще один термин к целевой функции (обычно после стандартизации всех переменных, чтобы поставить их в общую основу), прося минимизировать
для некоторой неотрицательной константы . Это сумма квадратов невязок плюс кратная сумма квадратов самих коэффициентов (делая очевидным, что у нее есть глобальный минимум). Поскольку , он имеет положительный квадратный корень .λ ≥ 0 ν 2λ λ≥0 ν2=λ
Рассмотрим матрицу дополненную строками, соответствующими умноженному на единичной матрице :ν p × pX ν p×p I
Когда вектор аналогично расширен нулей в конце концов к , матричное произведение в целевой функции добавляет дополнительные слагаемые вида к первоначальной цели. Следовательноp y ∗ p ( 0 - ν β i ) 2 = λ β 2 iy p y∗ p (0−νβi)2=λβ2i
Из формы левого выражения сразу видно, что нормальные уравнения
Поскольку мы добавили нули к концу , правая часть совпадает с . На левой стороне добавляется к исходному . Поэтому новые нормальные уравнения упрощаются доX ′ y ν 2 I = λ I X ′ Xy X′y ν2I=λI X′X
Помимо того, что он является концептуально экономичным - для получения этого результата не требуется никаких новых манипуляций - он также является экономически вычислительным: ваше программное обеспечение для выполнения обычных наименьших квадратов также будет выполнять регрессию гребня без каких-либо изменений. (Тем не менее, в больших задачах может быть полезно использовать программное обеспечение, разработанное для этой цели, потому что оно будет использовать специальную структуру для эффективного получения результатов для плотно разнесенного интервала , позволяя вам исследовать, как варьируются ответы с .) λ λX∗ λ λ
Еще одна прелесть этого взгляда на вещи заключается в том, как он помогает нам понять регрессию гребня. Когда мы хотим по-настоящему понять регрессию, это почти всегда помогает думать о ней геометрически: столбцы составляют векторов в реальном векторном пространстве размерности . Присоединяя к , продолжая тем самым их от векторов до -векторов, мы встраиваем в большее пространство , включая «мнимые», взаимно ортогональные направления. Первый столбецp n ν I X n n + p R n R n + p p X ν p p th ν ν p ν 0X p n νI X n n+p Rn Rn+p p X дается небольшая мнимая составляющая размера , что удлиняет его и выводит из пространства, созданного исходными столбцами . Второй, третий, ..., столбцы аналогичным образом удлиняются и перемещаются из исходного пространства на ту же величину - но все в разных новых направлениях. Следовательно, любая коллинеарность, присутствующая в исходных столбцах, будет немедленно разрешена. Более того, чем больше становится, тем больше эти новые векторы приближаются к индивидуальномуν p pth ν ν p воображаемые направления: они становятся все более ортонормированными. Следовательно, решение нормальных уравнений сразу станет возможным, и оно быстро станет численно устойчивым при увеличении от .ν 0
Это описание процесса предлагает некоторые новые и творческие подходы к решению проблем, для решения которых была разработана Ridge Regression. Например, используя любые средства (такие как разложение дисперсии, описанное Белсли, Кухом и Уэлшем в их книге 1980 года о регрессионной диагностике , глава 3), вы сможете определить подгруппы почти коллинеарных столбцов , где каждая подгруппа почти ортогонально к любому другому. Вам нужно только присоединить столько строк к (и нули к ), сколько есть элементов в самой большой группе, выделив одно новое «мнимое» измерение для смещения каждого элемента группы от его братьев и сестер: вам не нужно воображаемое Размеры, чтобы сделать это.X y pX X y p
источник
Теперь обратите внимание, что и Вместе мы получаем условие первого порядка Изоляция дает решение: ∂λβTβ
источник
Недавно я наткнулся на тот же вопрос в контексте P-сплайнов, и поскольку концепция та же самая, я хочу дать более подробный ответ о выводе оценки гребня.
Мы начнем с штрафной целевой функции, которая отличается от классической OLS-целевой функции своим штрафным членом в последнем слагаемом:
где
Мы можем переписать этот критерий в матричной нотации и далее разбить его:
где I - единичная матрица=yTy−βTXTy−βTXTy+βTXTXβ+βTλIβ I
Теперь мы ищем который минимизирует наш критерий. Среди прочего мы используем правило матрицы дифференцирования ∂ х T хβ который мы можем применить здесь как(XTX+λI)∈Rn×n: ∂xTAx∂x=(A+AT)x=A symmetric2Ax (XTX+λI)∈Rn×n
источник
Есть несколько важных вещей, которые отсутствуют в ответах.
Решение для является производным от необходимого условия первого порядка: ∂ е р я д г е ( β , λ )β которое даетр=(XTX+λI)-1хТУ. Но достаточно ли этого? То есть решение является глобальным минимумом только в том случае, еслиfridge(β,λ)строго выпуклая. Это может быть показано, чтобы быть правдой.∂fridge(β,λ)∂β=0 β=(XTX+λI)−1XTY fridge(β,λ)
Другой способ взглянуть на проблему - это увидеть эквивалентность между и f O L S ( β ) = ( Y - β T X ) T ( Y - β T X ), ограниченную | | β | | 2 2 ≤ т . OLS обозначает Обычные Наименьшие Квадраты. С этой точки зрения ф г Ifridge(β,λ) fOLS(β)=(Y−βTX)T(Y−βTX) ||β||22≤t - это только лагранжева функция, используемая для нахождения глобальных минимумов выпуклой целевой функции f O L S (β),ограниченной выпуклой функцией | | β | | 2 2 .fridge(β,λ) fOLS(β) ||β||22
Хорошее объяснение этих моментов и происхождение можно найти в этих прекрасных заметках к лекции: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ
источник