Какова функция потерь жесткого запаса SVM?

23

Люди говорят, что мягкий край SVM использует функцию потери шарнира: . Однако фактическая целевая функция, которую мягкое поле SVM пытается минимизировать, равна \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max (0,1-y_i (w ^ \ intercal x_i + b) ) Некоторые авторы называют регуляризатор термов \ | w \ | ^ 2 и функцию потери термов \ max (0,1-y_i (w ^ \ intercal x_i + b)) .max(0,1yi(wxi+b))

12w2+Cimax(0,1yi(wxi+b))
w2max(0,1yi(wxi+b))

Однако для SVM с жестким запасом вся целевая функция просто

12w2
Означает ли это, что SVM с жестким запасом минимизирует регуляризатор без какой-либо функции потерь? Это звучит очень странно.

Что ж, если 12w2 является функцией потерь в этом случае, можем ли мы назвать ее квадратичной функцией потерь? Если так, то почему функция потерь с жестким запасом SVM становится регуляризатором в мягком запасе SVM и выполняет переход от квадратичных потерь к потере шарниров?

Roun
источник
Насколько я понимаю, жесткий запас означает, что вы не принимаете данные в своем поле. Как следствие, max (0, расчет) всегда будет возвращать 0.
fxm

Ответы:

26

Термин потери шарнира imax(0,1yi(wxi+b)) в мягком поле SVM наказывает ошибочные классификации . В жестком поле SVM, по определению, нет неправильной классификации.

Это действительно означает, что жесткий запас SVM пытается минимизировать w2 . Из-за постановки задачи SVM запас составляет 2/w, Таким образом, минимизация нормы w геометрически эквивалентна максимизации поля. Именно то, что мы хотим!

Регуляризация - это метод, позволяющий избежать переобучения путем штрафования больших коэффициентов в векторе решения. В жестком маржинальной SVM является как функция потерь и регуляризатором.w2L2

В SVM с мягким полем член потери шарнира также действует как регуляризатор, но для слабых переменных вместо и в а не в . Регуляризация вызывает разреженность, поэтому стандартный SVM редок с точки зрения опорных векторов (в отличие от SVM методом наименьших квадратов).wL1L2L1

Марк Клазен
источник
Можете ли вы объяснить последние два абзаца с некоторыми подробностями и математикой?
Наина
0

Просто чтобы уточнить, минимизируется при условии ограничения линейной сепарации точек (т. Е. Можно нарисовать гиперплоскость, которая идеально разделяет две). Другими словами, единственные допустимые значения w, которые мы можем рассматривать как решения, это те, которые разделяют два набора точек.

12w2

Теперь считается, что жесткая маржа SVM «перехватывает» с большей готовностью, чем мягкая маржа. Это легче представить с помощью RBM SVM с достаточно высокой , которая может создавать (чрезмерно) сложные и (потенциально) пересекающиеся границы принятия решений. Чем сложнее поле (неточно имитируемое с более высоким «C»), тем сложнее поиск будет пытаться найти границы решения, которые идеально классифицируют два набора точек.γ

Когда мы переходим к «мягкому краю», ограничения ослабляются и заменяются сдерживающим фактором посредством введения «слабого». Эта переменная провисания определяется термином «потеря шарнира». После упрощения человек приходит к шарниру + l2, ​​как термин убытка, который каждый ассоциирует с SVM. FWIW, мне нравится создавать SVM как проблему оптимизации, а не вездесущую проблему «следуй за градиентами».

Ишан Патель
источник