Регуляризованная линейная или RKHS-регрессия

9

Я изучаю разницу между регуляризацией в регрессии RKHS и линейной регрессией, но мне трудно понять решающее различие между ними.

Учитывая пары ввода-вывода , я хочу оценить функцию следующим образом: где - функция ядра. Коэффициенты можно найти, решив где с некоторым неправильным обозначением i -й элемент матрицы ядра K это {\ displaystyle K (x_ {i}, x_ {j})} . Это дает \ begin {уравнение} \ alpha ^ * = (K + \ lambda nI) ^ {- 1} Y. \ конец {} уравнение(xi,yi)f()

f(x)u(x)=i=1mαiK(x,xi),
K(,)αm
minαRn1nYKαRn2+λαTKα,
i,jKK(xi,xj)
α=(K+λnI)1Y.
В качестве альтернативы, мы могли бы рассматривать эту проблему как проблему нормальной регрессии / линейной регрессии:
minαRn1nYKαRn2+λαTα,
с решением
α=(KTK+λnI)1KTY.

Какова будет принципиальная разница между этими двумя подходами и их решениями?

MthQ
источник
2
stats.stackexchange.com/questions/79192/…
Кагдас Озгенц
@MThQ - Разве ваше описание «нормальной» регрессии гребня все еще работает в дуале? Просто чтобы уточнить, что я думаю, что нормальная регрессия гребня предполагается работать в первичном (где делается явное представление признаков).
rnoodle

Ответы:

5

Как вы, наверное, заметили, записывая задачи оптимизации, единственное различие в минимизации состоит в том, какую норму Гильберта использовать для наказания. То есть, чтобы определить, какие «большие» значения используются для целей наказания. В настройке RKHS мы используем внутренний продукт RKHS, , тогда как регрессия гребня штрафует по отношению к евклидовой норме.ααtKα

Интересный теоретический результат является , как каждым метод эффектов спектров воспроизводящего ядра . Согласно теории RKHS, симметрично положительно определен. По спектральной теореме можно написать где - диагональная матрица собственных значений, а - ортонормированная матрица собственных векторов. Следовательно, в настройке RKHS Между тем, в настройке регрессии Риджа обратите внимание, что по симметрии, KKK=UtDUDU

(K+λnI)1Y=[Ut(D+λnI)U]1Y=Ut[D+λnI]1UY.
KtK=K2
(K2+λnI)1KY=[Ut(D2+λnI)U]1KY=Ut[D2+λnI]1UKY=Ut[D2+λnI]1DUY=Ut[D+λnD1]1UY.
Пусть спектр будет . В регрессии RKHS собственные значения стабилизируются с помощью . В регрессии Риджа мы имеем . В результате RKHS равномерно изменяет собственные значения, в то время как Ridge добавляет большее значение, если соответствующий меньше.Kν1,,νnνiνi+λnνiνi+λn/νiνi

В зависимости от выбора ядра две оценки для могут быть близки или удалены друг от друга. Расстояние в смысле нормы оператора будет Однако, это все еще ограничено для данногоα

αRKHSαRidge2=ARKHSYARidgeY2[D+λnI]1[D+λnD1]1Y2maxi=1,,n{|(νi+λn)1(νi+λn/νi)1|}Y2maxi=1,,n{λn|1νi|(νi+λn)(νi2+λn)}Y2
YТаким образом, ваши две оценки не могут быть произвольно далеко друг от друга. Следовательно, если ваше ядро ​​близко к идентичности, то, скорее всего, будет мало различий в подходах. Если ваши ядра сильно различаются, оба подхода могут привести к схожим результатам.

На практике трудно сказать однозначно, является ли одно лучше другого в данной ситуации. Поскольку мы минимизируем квадратичную ошибку при представлении данных в терминах функции ядра, мы эффективно выбираем лучшую регрессионную кривую из соответствующего гильбертова пространства функций. Следовательно, наказание по отношению к внутреннему продукту RKHS, кажется, естественный путь.

Адам Б Кашлак
источник
1
У вас есть ссылка на это?
rnoodle