Понимание регрессии SVM: целевая функция и «плоскостность»

12

SVM для классификации имеют для меня интуитивный смысл: я понимаю, как минимизация дает максимальный запас. Однако я не понимаю эту цель в контексте регрессии. Различные тексты ( здесь и здесь ) описывают это как максимизацию «плоскостности». Зачем нам это делать? Что в регрессии эквивалентно понятию «маржа»?||θ||2

Вот несколько попыток ответов, но ни один из них не помог мне понять.

Ян
источник
Я не очень разбираюсь в теории SVM, но «плоскостность» в обсуждении машин ядра, на которое вы ссылаетесь, кажется, сводится к: «имеет маленькую вторую производную» (подумайте о типичной мотивации для моделей сглаживания сплайнов).
конъюнктур

Ответы:

11

Один из способов, который я думаю о плоскостности, заключается в том, что это делает мои прогнозы менее чувствительными к возмущениям в элементах. То есть, если я создаю модель вида где мой вектор признаков уже нормализован, то меньшие значения в означают, что моя модель менее чувствительна к ошибкам измерения / случайные удары / нестационарность функций, . Учитывая две модели ( т.е. два возможных значения ), которые одинаково хорошо объясняют данные, я предпочитаю «более плоскую».х & thetas ; х & thetas ;

y=xθ+ϵ,
xθxθ

Вы также можете думать о регрессии хребта как о выполнении той же самой вещи без трюка с ядром или формулировки регрессии SVM «труба».

редактировать : в ответ на комментарии @ Ян, еще несколько объяснений:

  1. Рассмотрим линейный случай: . Предположим, что взяты из некоторого распределения, независимо от . По тождеству точечного произведения имеем , где - угол между и , который, вероятно, распределен при некотором сферически равномерном распределении. Теперь обратите внимание: «разброс» ( например, стандартное отклонение выборки) наших прогнозов пропорционален, Чтобы получить хорошее MSE со скрытыми, бесшумными версиями наших наблюдений, мы хотим уменьшить это,x θ y = | | х | | | | θ | | cos ψ + ϵ ψ θ x y | | θ | | | | θ | |y=xθ+ϵxθy=||x||||θ||cosψ+ϵψθxy||θ||||θ||ср Джеймс Стейн оценщик .
  2. Рассмотрим линейный случай с множеством функций. Рассмотрим модели и . Если содержит в себе больше нулевых элементов, чем , но примерно с той же силой объяснения, мы бы предпочли его, основываясь на бритве Оккама, так как он имеет зависимость от меньшего количества переменных ( т.е. мы сделали выбор объектов, установив некоторые элементы от до нуля). Плоскостность является своего рода непрерывной версией этого аргумента. Если каждый маргинал имеет единичное стандартное отклонение, а имеет, например, 2 элемента, которые равны 10, а остальныеу = х ⊤ & thetas ; 2 + & epsi ; & thetas ; 1 & thetas ; 2 & thetas ; 1 х & thetas ; 1 п - 2y=xθ1+ϵy=xθ2+ϵθ1θ2θ1xθ1n2меньше 0,0001, в зависимости от вашей толерантности к шуму, это эффективно «выбирает» две функции и обнуляет остальные.
  3. Когда используется трюк с ядром, вы выполняете линейную регрессию в высоком (иногда бесконечном) векторном пространстве. Каждый элемент теперь соответствует одному из ваших образцов , а не вашим возможностям . Если элементов из отличны от нуля, а остальные равны нулю, функции, соответствующие ненулевым элементам из , называются вашими «опорными векторами». Для хранения вашей модели SVM, скажем, на диске, вам нужно только сохранить эти векторов признаков, и вы можете выбросить остальные из них. Теперь плоскостность действительно имеет значение, потому что имеяk θ m - k k θ k k θ l lθkθmkkθkkмалый уменьшает требования к хранению и передаче и т . д. Опять же, в зависимости от вашего допуска к шуму, вы, вероятно, можете обнулить все элементы но самый большой , для некоторого , после выполнения регрессии SVM. Плоскостность здесь эквивалентна скупости относительно количества опорных векторов.θll
shabbychef
источник
1
так что это, в основном, регрессия с функцией потерь «трубка» (0 штраф за баллы +/- эпсилон прогноза), а не с квадратичной функцией потерь от OLS?
конъюнктур
@Conjugate Prior: да, обычно регрессия ядра сводит к минимуму функцию «потери, нечувствительные к эпсилону», которую можно представить как см., Например, kernelsvm.tripod.com или любой из работы Смолы и соавт . f(x)=(|x|ϵ)+
Шаббычеф
@shabbychef Спасибо. Мне всегда было интересно, что там происходит.
conjugateprior
@Conjugate Prior: Я не думаю, что это на самом деле желаемая функция потерь, но математика в итоге работает хорошо, поэтому они с ней справились. По крайней мере, это мое подозрение.
Шаббычеф
@shabbychef: я все еще потерян. Рассмотрим одномерный случай: . Все, что минимизирует , это дает вам более горизонтальную линию. Кажется, что это не имеет ничего общего со второй производной, о которой я думаю, вы говорите («гладкость»). И если мои выборочные точки (0,0) и (1,1e9), почему я предпочел бы более плоскую линию? То есть, скажем, мой допуск равен 1 - почему я бы предпочел более плоскую линию от (0,0) до (1,1e9-1) ( ) вместо прямой через (1,1e9) ( ) или прямая через (1,1e9 + 1) ( )? y=θxθϵθ=1e91θ=1e9θ=1e9+1
Ян
3

Шаббычеф дал очень четкое объяснение с точки зрения сложности модели. Я попытаюсь понять эту проблему с другой точки зрения, если она может кому-нибудь помочь.

В основном мы хотим максимизировать маржу в SVC. То же самое в SVR, в то время как мы хотим максимизировать ошибку предсказания с определенной точностью для лучшего обобщения. Здесь, если мы минимизируем ошибку прогнозирования, а не максимизируем, результат прогнозирования для неизвестных данных с большей вероятностью будет переопределен. Давайте подумаем о «максимизации ошибки предсказания» в одномерном случае.e

В одномерном случае наша цель - максимизировать расстояния от всех точек до линии тренда пределах . Обратите внимание, что мы установили ограничение точности как чтобы мы могли максимизировать расстояние, а не минимизировать . Тогда давайте взглянем на очень простое уравнение расстояния от точки до прямой.(xi,yi)y=ωx+bee

|ωxiyi+b|ω2+1

Прямо сейчас числитель ограничен . Чтобы максимизировать расстояние, мы пытаемся минимизировать .eω

Любой может легко расширить одномерный случай на N-мерный случай, поскольку уравнение расстояния всегда будет евклидовым расстоянием .

Кроме того, у нас может быть обзор проблемы оптимизации в SVR для сравнения [1].

с. т. { y i - < ω , x i > - b e < ω , x i > + b - y ie

min12||ω||2
s.t.{yi<ω,xi>be<ω,xi>+byie

Благодарю.

[1] Смола А. и Б. Шёлкопф. Учебник по поддержке векторной регрессии. Статистика и вычисления, вып. 14, № 3, август 2004 г., стр. 199–222.

oloopy
источник
0

По крайней мере, я не думаю, что минимизация имеет какое-либо отношение к границе концепции, как в настройке классификации SVM. Он служит для совершенно другой цели, которая хорошо объясняется двумя вышеупомянутыми постами, а именно: снижение сложности модели и избежание переоснащения.θ

lynnjohn
источник