Люди говорят, что мягкий край SVM использует функцию потери шарнира: . Однако фактическая целевая функция, которую мягкое поле SVM пытается минимизировать, равна \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max (0,1-y_i (w ^ \ intercal x_i + b) ) Некоторые авторы называют регуляризатор термов \ | w \ | ^ 2 и функцию потери термов \ max (0,1-y_i (w ^ \ intercal x_i + b)) .
Однако для SVM с жестким запасом вся целевая функция просто
Означает ли это, что SVM с жестким запасом минимизирует регуляризатор без какой-либо функции потерь? Это звучит очень странно.
Что ж, если является функцией потерь в этом случае, можем ли мы назвать ее квадратичной функцией потерь? Если так, то почему функция потерь с жестким запасом SVM становится регуляризатором в мягком запасе SVM и выполняет переход от квадратичных потерь к потере шарниров?
svm
loss-functions
Roun
источник
источник
Ответы:
Термин потери шарнира∑imax(0,1−yi(w⊺xi+b)) в мягком поле SVM наказывает ошибочные классификации . В жестком поле SVM, по определению, нет неправильной классификации.
Это действительно означает, что жесткий запас SVM пытается минимизировать∥w∥2 . Из-за постановки задачи SVM запас составляет 2/∥w∥ , Таким образом, минимизация нормы w геометрически эквивалентна максимизации поля. Именно то, что мы хотим!
Регуляризация - это метод, позволяющий избежать переобучения путем штрафования больших коэффициентов в векторе решения. В жестком маржинальной SVM является как функция потерь и регуляризатором.∥w∥2 L2
В SVM с мягким полем член потери шарнира также действует как регуляризатор, но для слабых переменных вместо и в а не в . Регуляризация вызывает разреженность, поэтому стандартный SVM редок с точки зрения опорных векторов (в отличие от SVM методом наименьших квадратов).w L1 L2 L1
источник
Просто чтобы уточнить, минимизируется при условии ограничения линейной сепарации точек (т. Е. Можно нарисовать гиперплоскость, которая идеально разделяет две). Другими словами, единственные допустимые значения w, которые мы можем рассматривать как решения, это те, которые разделяют два набора точек.12∥w∥2
Теперь считается, что жесткая маржа SVM «перехватывает» с большей готовностью, чем мягкая маржа. Это легче представить с помощью RBM SVM с достаточно высокой , которая может создавать (чрезмерно) сложные и (потенциально) пересекающиеся границы принятия решений. Чем сложнее поле (неточно имитируемое с более высоким «C»), тем сложнее поиск будет пытаться найти границы решения, которые идеально классифицируют два набора точек.γ
Когда мы переходим к «мягкому краю», ограничения ослабляются и заменяются сдерживающим фактором посредством введения «слабого». Эта переменная провисания определяется термином «потеря шарнира». После упрощения человек приходит к шарниру + l2, как термин убытка, который каждый ассоциирует с SVM. FWIW, мне нравится создавать SVM как проблему оптимизации, а не вездесущую проблему «следуй за градиентами».
источник