Интуиция для параметра регуляризации в SVM

11

Как изменение параметра регуляризации в SVM изменяет границу решения для неразделимого набора данных? Визуальный ответ и / или некоторый комментарий об ограничивающем поведении (для большой и маленькой регуляризации) был бы очень полезен.

ASX
источник

Ответы:

17

Параметр регуляризации (лямбда) служит той степенью важности, которая уделяется ошибочным классификациям. SVM представляет собой квадратичную задачу оптимизации, которая стремится максимизировать разницу между обоими классами и минимизировать количество ошибочных классификаций. Однако для неразделимых задач, чтобы найти решение, ограничение несоответствующей классификации должно быть ослаблено, и это достигается установкой упомянутой «регуляризации».

Таким образом, интуитивно, поскольку лямбда становится больше, тем меньше допускаются ошибочно классифицированные примеры (или самая высокая цена, выплачиваемая в функции потерь). Затем, когда лямбда стремится к бесконечности, решение стремится к жесткой границе (не допускайте ошибочной классификации). Когда лямбда стремится к 0 (не будучи 0), допускается больше ошибочных классификаций.

Определенно существует компромисс между этими двумя и обычно меньшими лямбдами, но не слишком маленькими, которые обобщают хорошо. Ниже приведены три примера линейной классификации SVM (бинарная).

Линейный SVM Lambda = 0,1 Линейный SVM Lambda = 1 введите описание изображения здесь

Для SVM с нелинейным ядром идея аналогична. Учитывая это, для более высоких значений лямбда существует более высокая вероятность переоснащения, в то время как для более низких значений лямбда существует более высокая вероятность подгонки.

На рисунках ниже показано поведение ядра RBF, при котором параметр sigma установлен на 1, а lambda = 0,01 и lambda = 10

RBF Kernel SVM лямбда = 0,01 RBF Kernel SVM lambda = 10

Можно сказать, что первая цифра, где лямбда ниже, является более «расслабленной», чем вторая цифра, где данные предназначены для более точной подгонки.

(Слайды профессора Ориола Пухоля. Университет Барселоны)

Javierfdr
источник
Красивые картинки! Ты создал их сам? Если да, может быть, вы можете поделиться кодом для их рисования?
Алексей Григорьев
приятная графика. что касается последних двух => из текста, то можно было бы неявно подумать, что первая картинка - это та, где лямбда = 0,01, но, насколько я понимаю (и, чтобы соответствовать графику в начале), это та, где лямбда = 10, потому что это явно тот, с наименьшей регуляризацией (наиболее переоснащение, наиболее расслабленным).
Вим 'сиськастая' Тильс
^ Это и моё понимание. Верхняя часть двух цветных графиков четко показывает больше контуров для формы данных, так что это должен быть график, на котором граница уравнения SVM была предпочтительнее при более высокой лямбде. Внизу двух цветных графиков показана более мягкая классификация данных (небольшой кластер синего цвета в оранжевой области), означающий, что максимизация полей не была предпочтительной по сравнению с минимизацией количества ошибок в классификации.
Брайан Амбиелли