Интерпретация расстояния от гиперплоскости в SVM

14

У меня есть несколько сомнений в интуитивном понимании SVM. Предположим, что мы обучили модель SVM для классификации с использованием некоторого стандартного инструмента, такого как SVMLight или LibSVM.

  1. Когда мы используем эту модель для прогнозирования тестовых данных, модель генерирует файл, имеющий значения «альфа» для каждой тестовой точки. Если альфа-значение положительное, контрольная точка принадлежит классу 1, иначе она принадлежит классу 2. Теперь, можем ли мы сказать, что контрольная точка с большим значением «альфа» принадлежит соответствующему классу с «более высокой» вероятностью?

  2. Аналогично первому вопросу, когда у нас есть SVM-тренинг. СВ лежат очень близко к гиперплоскости. Значит ли это, что SV принадлежат к этому классу с высокой вероятностью? Можем ли мы связать вероятность точки, принадлежащей классу, с ее расстоянием от «гиперплоскости»? Представляет ли значение «альфа» расстояние от «гиперплоскости»?

Спасибо за ваш вклад.

Amit
источник
Я думаю, что ответ «нет», но мне не хватает SVM, чтобы дать вам полный ответ. Мой интуитивный ответ таков: когда вы находитесь на восточной стороне Берлинской стены, вы просто на неправильной стороне, независимо от того, как далеко вы от нее.
Артур
scikits.learn имеет предикат_пробы для SVC и linear_model.SGDClassifier, я полагаю только для двоичных классификаторов; Я не использовал это все же.
Денис

Ответы:

18

Позвольте мне сначала ответить на ваш вопрос в целом. SVM не является вероятностной моделью. Одна из причин заключается в том, что оно не соответствует нормируемой вероятности. Например , в упорядоченные наименьших квадратов у вас есть функция потерь . , ( y m , x m ) ) 1 / Z exp ( - w 2 2 ) i exp (iyiw,xib22 и регуляризатора . Весовой вектор получается путем минимизации суммы двух. Однако это эквивалентно максимизации лог-апостериора w с данными p ( w | ( yw22w , которые вы можете увидетьчтобы быть продуктом гауссовская вероятность и гауссовский приор на w ( Zp(w|(y1,x1),...,(ym,xm))1/Zexp(w22)iexp(yiw,xib22)wZудостоверяется, что это нормализуется). Вы получаете гауссовскую вероятность из функции потерь, переворачивая ее знак и возводя его в степень. Однако, если вы делаете это с функцией потерь SVM, логарифмическая вероятность не является нормализуемой вероятностной моделью.

Есть попытки превратить SVM в один. Наиболее заметный, который, я думаю, также реализован в libsvm:

Джон Платт: вероятностные результаты для машин опорных векторов и сравнение с регуляризованными методами правдоподобия (NIPS 1999): http://www.cs.colorado.edu/~mozer/Teaching/syllabi/6622/papers/Platt1999.pdf

ααiSVαik(x,xi)+byy=iSVαik(x,xi)+b=w,ϕ(x)H+bwywwH=i,jSVαiαjk(xi,xj)

fabee
источник
Спасибо за ваше объяснение ... будет читать газету
Amit