Какая статистическая модель стоит за алгоритмом SVM?

28

Я узнал, что при работе с данными на основе модельного подхода первым шагом является моделирование процедуры обработки данных в качестве статистической модели. Затем следующим шагом является разработка эффективного / быстрого алгоритма вывода / обучения на основе этой статистической модели. Итак, я хочу спросить, какая статистическая модель стоит за алгоритмом машины опорных векторов (SVM)?

Хай Нгуен
источник

Ответы:

27

Вы часто можете написать модель, которая соответствует функции потерь (здесь я собираюсь поговорить о регрессии SVM, а не о классификации SVM; это особенно просто)

Например, в линейной модели, если ваша функция потерь равна минимизируйте это, что будет соответствовать максимальной вероятности для . (Здесь у меня линейное ядро)ig(εi)=ig(yixiβ)fexp(ag(ε)) =exp(ag(yxβ))

Если я правильно помню, у SVM-регрессии есть функция потерь, подобная этой:

график эпсилон-нечувствительных потерь

Это соответствует плотности, которая является однородной в середине с экспоненциальными хвостами (как мы видим, возводя в степень ее отрицательный, или некоторый кратный его отрицательный).

участок соответствующей плотности

Существует три семейства параметров: угловое местоположение (порог относительной нечувствительности) плюс местоположение и масштаб.

Это интересная плотность; если я правильно помню, что, глядя на это конкретное распределение несколько десятилетий назад, хорошей оценкой его местоположения является среднее значение двух симметрично расположенных квантилей, соответствующих тем, где находятся углы (например, середина дает хорошее приближение к MLE для одного конкретного выбор константы в потере СВМ); аналогичная оценка для параметра масштаба будет основана на их разнице, в то время как третий параметр в основном соответствует определению, в каком процентиле находятся углы (это может быть выбрано, а не оценено, как это часто бывает для SVM).

Так что, по крайней мере, для регрессии SVM это кажется довольно простым, по крайней мере, если мы хотим получить наши оценки с максимальной вероятностью.

(В случае, если вы собираетесь спросить ... У меня нет ссылки на эту конкретную связь с SVM: я только что разработал это сейчас. Однако это настолько просто, что десятки людей разработали это до меня, так что без сомнения там есть ссылки на него - я просто никогда не видел ни одного ).

Glen_b - Восстановить Монику
источник
2
(Я отвечал на это ранее в другом месте, но я удалил это и переместил сюда, когда увидел, что вас тоже спрашивают здесь; возможность писать математику и включать рисунки здесь намного лучше - и функция поиска также лучше, поэтому ее легче найти в несколько месяцев)
Glen_b
2
+1, плюс ванильный SVM также имеет гауссовский по своим параметрам через . 2
Firebug
2
Если ФП спрашивает о SVM, он / она, вероятно, интересуется классификацией (которая является наиболее распространенным применением SVM). В этом случае потеря - это потеря шарнира, которая немного отличается (у вас нет увеличивающейся части). Что касается модели, я слышал, как академики говорили на конференции, что SVM были введены для выполнения классификации без использования вероятностной структуры. Вероятно, поэтому вы не можете найти ссылки. С другой стороны, вы можете и делаете реорганизацию минимизации потерь в шарнирах как минимизацию эмпирического риска, что означает ...
DeltaIV
4
То, что вам не нужно иметь вероятностные рамки, не означает, что то, что вы делаете, не соответствует ни одному. Можно делать наименьшие квадраты, не предполагая нормальности, но полезно понимать, что это то, что у него хорошо получается ... и когда вы совсем рядом, это может быть гораздо менее хорошо.
Glen_b
3
Может быть, icml-2011.org/papers/386_icmlpaper.pdf является справочным материалом для этого? (Я только просмотрел его)
Линдон Уайт
8

Я думаю, что кто-то уже ответил на ваш буквальный вопрос, но позвольте мне прояснить потенциальную путаницу.

Ваш вопрос чем-то похож на следующее:

У меня есть эта функция и мне интересно, какое дифференциальное уравнение это решение?f(x)=

Другими словами, у него, безусловно, есть действительный ответ (возможно, даже уникальный, если вы накладываете ограничения регулярности), но это довольно странный вопрос, потому что это не было дифференциальное уравнение, которое изначально породило эту функцию.
(С другой стороны, учитывая дифференциальное уравнение, то это естественно спросить , для ее решения, так как это, как правило , почему вы пишете уравнение!)

И вот почему: я думаю, что вы думаете о вероятностных / статистических моделях, в частности, о порождающих и дискриминационных моделях, основанных на оценке вероятностей суставов и условий по данным.

SVM не является ни тем, ни другим. Это совершенно другой тип модели - модель, которая обходит их и пытается напрямую смоделировать границу окончательного решения, вероятности быть проклятыми.

Поскольку речь идет о поиске формы границы решения, интуиция за ней является геометрической (или, возможно, мы должны сказать, на основе оптимизации), а не вероятностной или статистической.

Учитывая , что вероятности на самом деле не рассматриваются в любом месте вдоль пути, то это довольно необычно , чтобы спросить , что может быть соответствующая вероятностная модель, и тем более , что вся цель состояла в том, чтобы избежать необходимости беспокоиться о вероятности. Следовательно, почему вы не видите людей, говорящих о них.

Mehrdad
источник
6
Я думаю, что вы не принимаете во внимание ценность статистических моделей, лежащих в основе вашей процедуры. Причина, по которой он полезен, заключается в том, что он говорит вам, какие предположения лежат в основе метода. Если вы знаете это, вы сможете понять, в каких ситуациях он будет бороться и когда он будет процветать. Вы также можете обобщать и расширять svm принципиальным образом, если у вас есть базовая модель.
вероятностная
3
@probabilityislogic: «Я думаю, что вы не принимаете во внимание ценность статистических моделей, лежащих в основе вашей процедуры». ... Я думаю, что мы говорим мимо друг друга. Я пытаюсь сказать, что за этой процедурой нет статистической модели. Я не говорю, что невозможно придумать тот, который подходит ему апостериорно, но я пытаюсь объяснить, что он никоим образом не был «позади», а скорее «соответствовал» ему после факта . Я также не говорю, что делать такие вещи бесполезно; Я согласен с вами, что это может иметь огромное значение. Пожалуйста, помните об этих различиях.
Мердад
1
@ Mehrdad: Я не говорю, что невозможно придумать тот, который подходит ему апостериори, порядок, в котором были собраны части того, что мы называем svm «машиной» (какие проблемы изначально пытались создать люди, которые ее проектировали) решить) интересно с точки зрения истории науки. Но, насколько нам известно, в какой-то библиотеке может быть еще неизвестная рукопись, содержащая описание движка svm, созданного 200 лет назад, который рассматривает проблему под углом, который исследовал Glen_b. Может быть, понятия апостериори и после факта менее надежны в науке.
user603
1
@ user603: Проблема не только в истории. Исторический аспект - это только половина. Другая половина - то, как это обычно происходит на самом деле. Он начинается как проблема геометрии и заканчивается проблемой оптимизации. Никто не начинает с вероятностной модели в выводе, что означает, что вероятностная модель ни в каком смысле не «за» результатом. Это все равно что утверждать, что механика Лагранжа "позади" F = ma. Может быть, это может привести к этому, и да, это полезно, но нет, это не так и никогда не было основой этого. На самом деле вся цель состояла в том, чтобы избежать вероятности.
Мердад