Вкратце: максимизация разницы в более общем смысле может рассматриваться как регуляризация решения путем минимизации (что, по сути, минимизирует сложность модели), это делается как в классификации, так и в регрессии. Но в случае классификации эта минимизация выполняется при условии, что все примеры классифицированы правильно, и в случае регрессии при условии, что значение y всех примеров отклоняется меньше, чем требуемая точность ϵ от f ( x ) для регрессии.wyϵf(x)
Чтобы понять, как вы переходите от классификации к регрессии, это помогает увидеть, как в обоих случаях применяется одна и та же теория SVM для формулирования проблемы как задачи выпуклой оптимизации. Я постараюсь положить обе стороны рядом.
(Я буду игнорировать слабые переменные, которые допускают неправильную классификацию и отклонения выше точности )ε
классификация
В этом случае цель состоит в том, чтобы найти функцию где f ( x ) ≥ 1 для положительных примеров и f ( x ) ≤ - 1 для отрицательных примеров. В этих условиях мы хотим максимизировать запас (расстояние между двумя красными полосами), который является не чем иным, как минимизацией производной от f ′ =е( х ) = ш х + бе( х ) ≥ 1е( х ) ≤ - 1 .е'= ш
Интуиция, лежащая в основе максимизации запаса, состоит в том, что это даст нам уникальное решение проблемы нахождения (т.е. мы отбрасываем, например, синюю линию), а также то, что это решение является наиболее общим в этих условиях, т.е. оно действует как регуляризация . Это можно увидеть, когда вокруг границы решения (где пересекаются красные и черные линии) неопределенность классификации самая большая и выбирается самое низкое значение для f ( x )е( х )е( х ) в этой области даст наиболее общее решение.
Точки данных на 2 красных столбцах являются опорными векторами в этом случае, они соответствуют ненулевым множителям Лагранжа части равенства условий неравенства и f ( x ) ≤ - 1е( х ) ≥ 1е( х ) ≤ - 1
регрессия
е( х ) = ш х + бе( х )εY( х )| Y( х ) - ф( х ) | ≤ ϵe p s i l o nэто расстояние между красной и серой линиями. При этом условии мы снова хотим минимизировать , опять же по причине регуляризации и получить единственное решение в результате выпуклой задачи оптимизации. Можно видеть, как минимизация w приводит к более общему случаю как экстремальное значение w = 0е'( х ) = швесw = 0 будет означать отсутствие функциональной связи вообще, что является наиболее общим результатом, который можно получить из данных.
Точки данных на 2 красных столбцах являются опорными векторами в этом случае, они соответствуют ненулевым множителям Лагранжа части равенства условия неравенства | Y- ф( х ) | ≤ ϵ
Вывод
Оба случая приводят к следующей проблеме:
мин 12вес2
При условии, что:
- Все примеры классифицированы правильно (классификация)
- Yεе( х )