Оптимальная гиперплоскость в SVM определяется как:
где представляет порог. Если у нас есть некоторое отображение которое отображает входное пространство на некоторое пространство , мы можем определить SVM в пространстве , где оптимальной гиперплоскостью будет:
Однако мы всегда можем определить отображение так, чтобы , , и тогда оптимальная гиперплоскость будет определяться как
Вопросы:
Почему во многих работах когда они уже имеют отображение и оценивают параметры и theshold отдельно?
Есть ли какая-то проблема для определения SVM как s.t. \ y_n \ mathbf w \ cdot \ mathbf \ phi (\ mathbf x_n) \ geq 1, \ forall n и оцениваем только вектор параметров \ mathbf w , предполагая, что мы определяем \ phi_0 (\ mathbf x) = 1, \ forall \ mathbf х ?
Если определение SVM из вопроса 2. возможно, у нас будет а порог будет просто , который мы не будем рассматривать отдельно. Таким образом , мы никогда не будем использовать формулу , как для оценки от некоторой поддержки вектора . Правильно?
Ответы:
Почему уклон важен?
Член смещения действительно является специальным параметром в SVM. Без этого классификатор всегда будет проходить источник. Таким образом, SVM не дает вам разделительную гиперплоскость с максимальным запасом, если она не проходит через начало координат, если у вас нет смещения.b
Ниже приведена визуализация проблемы смещения. SVM, обученный с (без) термином смещения, показан слева (справа). Хотя оба SVM обучаются на одних и тех же данных , они выглядят очень по-разному.
Почему смещение следует рассматривать отдельно?
Как отметил Бен DAI , термин смещения следует рассматривать отдельно из-за регуляризации. SVM максимизирует размер поля, который составляет (или зависимости от того, как вы его определяете).b 1||w||2 2||w||2
Максимизация разницы аналогична минимизации . Это также называется термином регуляризации и может быть интерпретировано как мера сложности классификатора. Однако вы не хотите упорядочивать термин смещения, потому что смещение сдвигает классификационные оценки вверх или вниз на одну и ту же величину для всех точек данных . В частности, смещение не меняет форму классификатора или размер его поля. Следовательно, ...||w||2
На практике, однако, легче просто вставить смещение в вектор признаков, а не рассматривать его как особый случай.
Примечание. При перемещении смещения к функции объекта лучше всего зафиксировать этот размер вектора объекта большим числом, например, , чтобы минимизировать побочные эффекты регуляризации смещения.ϕ0(x)=10
источник
Иногда люди просто пропускают перехват в SVM, но я думаю, что причина может заключаться в том, что мы можем штрафовать перехват, чтобы пропустить его. т.е.
мы можем изменить данные и , так что опустим перехватывать Как вы Тем не менее, подобная техника может быть использована в версии ядра.x^=(1,x) w^=(w0,wT)T
Однако, если мы поместим перехват в весах, целевая функция будет немного отличаться от исходной. Вот почему мы называем «наказывать».
источник
В дополнение к причинам, указанным выше, расстояние от точки до гиперплоскости, определенной наклоном и точкой равно Вот как Концепция маржи в SVM перенесена. Если вы измените , чтобы включить термин перехватывать , норму будет зависеть от размера перехвата, что приведет к SVM для оптимизации к небольшому перехвату, который не имеет смысла во многих случаях.x θ b |θTx+b|||θ|| θ b θ
источник