Насколько отличается регрессия вектора поддержки по сравнению с SVM?

Я знаю основы SVM и SVR, но до сих пор не понимаю, как проблема нахождения гиперплоскости, которая максимизирует запас, вписывается в SVR.

Во-вторых, я прочитал кое-что о используемом в качестве предела терпимости в SVR. Что это означает? $\epsilon$

В-третьих, есть ли разница между параметрами решающей функции, используемыми в SVM и SVR?

regression machine-learning svm encodeflush
источник

Я попытался объяснить это в графической форме, используя вид сбоку stats.stackexchange.com/questions/82044/…

Lejafar

SVM, как для классификации, так и для регрессии, предназначен для оптимизации функции с помощью функции стоимости, однако разница заключается в моделировании затрат.

Рассмотрим эту иллюстрацию машины опорных векторов, используемой для классификации.

Поскольку нашей целью является хорошее разделение двух классов, мы пытаемся сформулировать границу, которая оставляет максимально возможный запас между наиболее близкими к нему экземплярами (опорными векторами), при этом случаи, попадающие в это поле, вполне возможны, хотя влечет за собой высокую стоимость (в случае мягкого наценки SVM).

В случае регрессии цель состоит в том, чтобы найти кривую, которая минимизирует отклонение точек к ней. В SVR мы также используем маржу, но с совершенно другой целью - нас не волнуют случаи, которые лежат в пределах некоторого поля вокруг кривой, потому что кривая подходит им несколько лучше. Этот запас определяется параметром SVR. Экземпляры, попадающие в пределы маржи, не несут никаких затрат, поэтому мы называем эти потери «нечувствительными к эпсилонам». $\epsilon$

Для обеих сторон функции мы определяем слабую переменную каждая, , чтобы учесть отклонения за пределами зоны. $\xi_+, \xi_-$ $\epsilon$

Это дает нам задачу оптимизации (см. Э. Алпайдин, Введение в машинное обучение, 2-е издание)

m i n \frac{1}{2} | | w | |^{2} + C \sum_{t} (ξ_{+} + ξ_{-})

$min \frac{1}{2} ||w||^2 + C\sum_{t} (\xi_+ + \xi_-)$

при условии

r^{t} - (w^{T} x + w_{0}) \leq ϵ + ξ_{+}^{t} (w^{T} x + w_{0}) - r^{t} \leq ϵ + ξ_{-}^{t} ξ_{+}^{t}, ξ_{-}^{t} \geq 0

$r^t - (\textbf{w}^T \textbf{x} + w_0) \leq \epsilon + \xi_{+}^{t}\\ (\textbf{w}^T \textbf{x} + w_0)-r^t \leq \epsilon + \xi_{-}^{t}\\ \xi_{+}^{t},\xi_{-}^{t} \geq 0$

Экземпляры, выходящие за пределы регрессии SVM, несут затраты на оптимизацию, поэтому стремление минимизировать эти затраты в рамках оптимизации уточняет нашу функцию принятия решений, но фактически не максимизирует маржу, как это было бы в случае классификации SVM.

Это должно было ответить на первые две части вашего вопроса.

Относительно вашего третьего вопроса: как вы уже поняли, является дополнительным параметром в случае SVR. Параметры обычного SVM все еще остаются, поэтому штрафной член а также другие параметры, которые требуются ядром, такие как в случае ядра RBF. $\epsilon$ $C$ $\gamma$

deemel
источник

Насколько отличается регрессия вектора поддержки по сравнению с SVM?

Ответы: