Мне было интересно, можно ли обучить SVM (скажем, линейный, чтобы упростить задачу) с использованием обратного распространения?
В настоящее время я нахожусь в затруднительном положении, потому что я могу думать только о том, чтобы записать вывод классификатора как
Следовательно, когда мы пытаемся вычислить «обратный проход» (распространяющаяся ошибка), мы получаем поскольку производная от - это
Точно так же мы находим, что , что означает, что мы не можем передать какую-либо информацию, или выполнить обновления градиента!
Что дает?
Если вас интересует только линейный случай, тогда логистическая регрессия (LR) является лучшим выбором, так как она является выпуклой и аналитической (вы можете использовать ее, если вы заинтересованы в регуляризации). Но когда вы выбираете нелинейный, вот тут-то и возникает сложная часть. Для нелинейных случаев не существует разумного способа сохранить вещи как выпуклыми, так и аналитическими, вам нужно пожертвовать одной из двух. В нейронных сетях вы жертвуете выпуклостью, а в svms вы жертвуете голоморфизмом.
строго говоря, нет разницы между LR и SVM, svms просто предсказывают, на какой стороне линии лежит точка, LR также принимают во внимание, как далеко они находятся от границы (на границе границы сигмоида дает вам вероятность 0,5 в случае LR). SVM вынуждены пойти на этот компромисс, потому что для нелинейных ядер интуитивное расстояние от изогнутой гиперплоскости (алгебраическое многообразие - лучший термин) не то же самое, что в линейном случае, на самом деле проблема решения кратчайшего расстояния от гиперповерхности до определенной точки очень трудно (сложнее, чем сам SVM), но с другой стороны, Вапник понял, что просто предсказать, на какой стороне границы находится точка, очень легко, как за O (1) время. Это истинное понимание SVM, делающее его единственной доступной альтернативой выпуклой оптимизации в статистической теории обучения. Но я чувствую, что вы жертвуете слишком много, и голоморфизм, и вероятностный характер потеряны. Но для конкретных случаев, таких как наземные модели SVM, очень надежны и являются полностью фальсифицируемыми научными моделями в отличие от его невыпуклых альтернатив.
Tldr: да, теорема о среднем значении приходит на помощь неаналитическим функциям. В выпукло-неаналитических случаях торема среднего значения превращается в неравенство, устанавливающее некоторые граничные условия на субградиентах, которые используют для того, чтобы сделать субградиент достойным
источник