SVM для классификации имеют для меня интуитивный смысл: я понимаю, как минимизация дает максимальный запас. Однако я не понимаю эту цель в контексте регрессии. Различные тексты ( здесь и здесь ) описывают это как максимизацию «плоскостности». Зачем нам это делать? Что в регрессии эквивалентно понятию «маржа»?
Вот несколько попыток ответов, но ни один из них не помог мне понять.
Ответы:
Один из способов, который я думаю о плоскостности, заключается в том, что это делает мои прогнозы менее чувствительными к возмущениям в элементах. То есть, если я создаю модель вида где мой вектор признаков уже нормализован, то меньшие значения в означают, что моя модель менее чувствительна к ошибкам измерения / случайные удары / нестационарность функций, . Учитывая две модели ( т.е. два возможных значения ), которые одинаково хорошо объясняют данные, я предпочитаю «более плоскую».х & thetas ; х & thetas ;
Вы также можете думать о регрессии хребта как о выполнении той же самой вещи без трюка с ядром или формулировки регрессии SVM «труба».
редактировать : в ответ на комментарии @ Ян, еще несколько объяснений:
источник
Шаббычеф дал очень четкое объяснение с точки зрения сложности модели. Я попытаюсь понять эту проблему с другой точки зрения, если она может кому-нибудь помочь.
В основном мы хотим максимизировать маржу в SVC. То же самое в SVR, в то время как мы хотим максимизировать ошибку предсказания с определенной точностью для лучшего обобщения. Здесь, если мы минимизируем ошибку прогнозирования, а не максимизируем, результат прогнозирования для неизвестных данных с большей вероятностью будет переопределен. Давайте подумаем о «максимизации ошибки предсказания» в одномерном случае.e
В одномерном случае наша цель - максимизировать расстояния от всех точек до линии тренда пределах . Обратите внимание, что мы установили ограничение точности как чтобы мы могли максимизировать расстояние, а не минимизировать . Тогда давайте взглянем на очень простое уравнение расстояния от точки до прямой.(xi,yi) y=ωx+b e e
Прямо сейчас числитель ограничен . Чтобы максимизировать расстояние, мы пытаемся минимизировать .e ω
Любой может легко расширить одномерный случай на N-мерный случай, поскольку уравнение расстояния всегда будет евклидовым расстоянием .
Кроме того, у нас может быть обзор проблемы оптимизации в SVR для сравнения [1].
с. т. { y i - < ω , x i > - b ≤ e < ω , x i > + b - y i ≥ e
Благодарю.
[1] Смола А. и Б. Шёлкопф. Учебник по поддержке векторной регрессии. Статистика и вычисления, вып. 14, № 3, август 2004 г., стр. 199–222.
источник
По крайней мере, я не думаю, что минимизация имеет какое-либо отношение к границе концепции, как в настройке классификации SVM. Он служит для совершенно другой цели, которая хорошо объясняется двумя вышеупомянутыми постами, а именно: снижение сложности модели и избежание переоснащения.θ
источник