Задачи классификации текста имеют тенденцию быть довольно многомерными (много функций), а задачи высокой размерности, вероятно, будут линейно разделимыми (поскольку вы можете разделить любые точки d + 1 в d-мерном пространстве с помощью линейного классификатора, независимо от того, как точки помечены). Таким образом, линейные классификаторы, будь то регрессия гребня или SVM с линейным ядром, скорее всего, преуспеют. В обоих случаях параметр гребня или C для SVM (как упоминает tdc +1) контролируют сложность классификатора и помогают избежать перевыбора, разделяя шаблоны каждого класса большими полями (т. Е. Поверхность решения проходит вниз по середина разрыва между двумя наборами точек). Однако, чтобы получить хорошую производительность, параметры гребня / регуляризации должны быть должным образом настроены (я использую перекрестную проверку без выходных, так как это дешево).
Тем не менее, причина того, что регрессия гребня работает хорошо, заключается в том, что нелинейные методы слишком мощные, и их трудно избежать. Может существовать нелинейный классификатор, который дает лучшую производительность обобщения, чем лучшая линейная модель, но слишком сложно оценить эти параметры, используя конечную выборку обучающих данных, которую мы имеем. На практике, чем проще модель, тем меньше у нас проблем с оценкой параметров, поэтому меньше склонностей к переоснащению, поэтому мы получаем лучшие результаты на практике.
Еще одна проблема - выбор признаков, регрессия гребня позволяет избежать переоснащения за счет регуляризации весов, чтобы они оставались небольшими, а выбор модели прост, поскольку вам нужно только выбрать значение одного параметра регрессии. Если вы попытаетесь избежать чрезмерной подгонки, выбрав оптимальный набор функций, то выбор модели станет трудным, так как существует определенная степень свободы (своего рода) для каждой функции, которая позволяет переопределить критерий выбора функции, и вы в конечном итоге набор функций, который является оптимальным для этой конкретной выборки данных, но который дает плохую производительность обобщений. Поэтому невыполнение выбора функций и использование регуляризации часто может дать лучшую прогнозирующую производительность.
Я часто использую Bagging (формирую комитет моделей, обученных на начальных выборках из обучающего набора) с моделями регрессии гребня, что часто дает улучшение производительности, и, поскольку все модели линейны, вы можете объединить их в единую линейную модель. Таким образом, производительность не снижается.
Хребетная регрессия, как следует из названия, является методом регрессии, а не классификации. Предположительно, вы используете порог, чтобы превратить его в классификатор. В любом случае вы просто изучаете линейный классификатор, который определяется гиперплоскостью. Причина, по которой он работает, заключается в том, что стоящая перед нами задача по существу линейно разделима - то есть простая гиперплоскость - это все, что необходимо для разделения классов. Параметр «гребень» позволяет ему работать в случаях, которые не являются полностью линейно разделимыми, или в задачах с недостатком ранга (в этом случае оптимизация будет вырожденной).
В этом случае нет причин, по которым другие классификаторы также не должны работать хорошо, если предположить, что они были реализованы правильно. Например, SVM находит «оптимальную разделяющую гиперплоскость» (т.е. гиперплоскость, которая максимизирует запас или разрыв между классами).
C
Параметр SVM представляет собой параметр , аналогичное регулирование мощности к параметру конька, который позволяет для некоторых неправильной классификации (отклоняющихся значений). Предполагая, что процесс выбора параметров был выполнен усердно, я ожидал бы, что два метода приведут к почти одинаковым результатам в таком наборе данных.источник