Почему термин смещения в SVM оценивается отдельно, а не в дополнительном измерении в векторе признаков?

11

Оптимальная гиперплоскость в SVM определяется как:

wx+b=0,

где представляет порог. Если у нас есть некоторое отображение которое отображает входное пространство на некоторое пространство , мы можем определить SVM в пространстве , где оптимальной гиперплоскостью будет:bϕZZ

wϕ(x)+b=0.

Однако мы всегда можем определить отображение так, чтобы , , и тогда оптимальная гиперплоскость будет определяться как ϕϕ0(x)=1x

wϕ(x)=0.

Вопросы:

  1. Почему во многих работах когда они уже имеют отображение и оценивают параметры и theshold отдельно?wϕ(x)+b=0ϕwb

  2. Есть ли какая-то проблема для определения SVM как s.t. \ y_n \ mathbf w \ cdot \ mathbf \ phi (\ mathbf x_n) \ geq 1, \ forall n и оцениваем только вектор параметров \ mathbf w , предполагая, что мы определяем \ phi_0 (\ mathbf x) = 1, \ forall \ mathbf х ?

    minw||w||2
    s.t. ynwϕ(xn)1,n
    wϕ0(x)=1,x
  3. Если определение SVM из вопроса 2. возможно, у нас будет w=nynαnϕ(xn) а порог будет просто b=w0 , который мы не будем рассматривать отдельно. Таким образом , мы никогда не будем использовать формулу , как b=tnwϕ(xn) для оценки b от некоторой поддержки вектора xn . Правильно?

Деяна
источник
Связанный: причина не сокращения термина смещения (перехвата) в регрессии .
говорит амеба, восстанови Монику

Ответы:

12

Почему уклон важен?

Член смещения действительно является специальным параметром в SVM. Без этого классификатор всегда будет проходить источник. Таким образом, SVM не дает вам разделительную гиперплоскость с максимальным запасом, если она не проходит через начало координат, если у вас нет смещения.b

Ниже приведена визуализация проблемы смещения. SVM, обученный с (без) термином смещения, показан слева (справа). Хотя оба SVM обучаются на одних и тех же данных , они выглядят очень по-разному.

введите описание изображения здесь

Почему смещение следует рассматривать отдельно?

Как отметил Бен DAI , термин смещения следует рассматривать отдельно из-за регуляризации. SVM максимизирует размер поля, который составляет (или зависимости от того, как вы его определяете).b1||w||22||w||2

Максимизация разницы аналогична минимизации . Это также называется термином регуляризации и может быть интерпретировано как мера сложности классификатора. Однако вы не хотите упорядочивать термин смещения, потому что смещение сдвигает классификационные оценки вверх или вниз на одну и ту же величину для всех точек данных . В частности, смещение не меняет форму классификатора или размер его поля. Следовательно, ...||w||2

термин смещения в SVM НЕ должен быть упорядочен.

На практике, однако, легче просто вставить смещение в вектор признаков, а не рассматривать его как особый случай.

Примечание. При перемещении смещения к функции объекта лучше всего зафиксировать этот размер вектора объекта большим числом, например, , чтобы минимизировать побочные эффекты регуляризации смещения.ϕ0(x)=10

Sobi
источник
Какую программу вы использовали для создания графиков из любопытства?
d0rmLife
1
@ d0rmLife: это всего лишь мультфильм, который я сделал с помощью MS PowerPoint!
Соби
+1. Связанный: причина не сокращения термина смещения (перехвата) в регрессии .
говорит амеба, восстанови Монику
1

Иногда люди просто пропускают перехват в SVM, но я думаю, что причина может заключаться в том, что мы можем штрафовать перехват, чтобы пропустить его. т.е.

мы можем изменить данные и , так что опустим перехватывать Как вы Тем не менее, подобная техника может быть использована в версии ядра.x^=(1,x)w^=(w0,wT)T

x w+b=x^ w^

Однако, если мы поместим перехват в весах, целевая функция будет немного отличаться от исходной. Вот почему мы называем «наказывать».

Бен Дай
источник
Я согласен, что у нас будут разные объективные функции. Случай, когда мы не включаем пересечение в параметры, приводит к задаче оптимизации подверженной ограничению, в то время как в противном случае мы имеем проблему . Но я не понимаю, почему панилизующий перехват более или менее важен для модели. bminw,b||w||2minw,b||w||2+b2
Деян
Что мне приходит в голову, так это то, что главная причина, по которой мы пересекаемся, может быть, потому что в двойной задаче перехват позволяет нам иметь ограничение что важно для применения алгоритма SMO, и если у нас нет перехвата, будет иметь только константы и в этом случае двойная оптимизация будет сложнее. αntn=0αn0
Деян
@Petar Одна вещь, которую я знаю, это то, что она становится мощной, когда мы рассматриваем двойственную форму этой модели. Этот метод устранит линейное ограничение.
Бен Дай
@Petar Я не думаю, что двойная оптимизация будет сложнее, так как у нас более простая область.
Бен Дай
@Petar Для конкретного алгоритма это может быть сложнее. Тем не менее, математически, я думаю, что домен коробки может быть лучше
Бен Дай
0

В дополнение к причинам, указанным выше, расстояние от точки до гиперплоскости, определенной наклоном и точкой равно Вот как Концепция маржи в SVM перенесена. Если вы измените , чтобы включить термин перехватывать , норму будет зависеть от размера перехвата, что приведет к SVM для оптимизации к небольшому перехвату, который не имеет смысла во многих случаях.xθb

|θTx+b|||θ||
θbθ

charlieh_7
источник
Даже при том, что расстояние от точки до гиперплоскости правильное и объяснение выглядит интересным, я не вижу корреляции между этой формулой и тренировочными SVM. Можете ли вы объяснить, как эта формула используется во время обучения, или предоставить дополнительную ссылку?
Деян
@Dejan Идея SVM состоит в том, чтобы найти гиперплоскость, которая максимизирует минимальный запас для набора данных. Поля - это «расстояние» ( без принятия абсолютного значения, которое указывает на достоверность, которую классификатор имеет в отношении своей гипотезы) этой точки до гиперплоскости раз его метка, которая находится в . Результатом является , который является положительным, если выходные данные классификатора соответствуют метке, и отрицательным в противном случае. На практике мы просто масштабируем нашу модель так, чтобы минимальный запас для набора данных был . θTx+b||θ||{1,1}y(θTx+b)||θ||1||θ||
charlieh_7
@Dejan вы можете найти более подробную информацию в заметках Эндрю Нга: cs229.stanford.edu/notes/cs229-notes3.pdf
charlieh_7