Почему классификатор регрессии гребня работает достаточно хорошо для классификации текста?

18

Во время эксперимента по классификации текста я обнаружил, что классификатор гребней генерирует результаты, которые постоянно превосходят тесты среди тех классификаторов, которые чаще упоминаются и применяются для задач интеллектуального анализа текста, таких как SVM, NB, kNN и т. Д. Хотя я не разработал по оптимизации каждого классификатора для этой конкретной задачи классификации текста, за исключением некоторых простых настроек параметров.

Такой результат был также упомянут Дикран Marsupial .

Не опираясь на статистические данные, после прочтения некоторых материалов в Интернете я все еще не могу выяснить основные причины этого. Может ли кто-нибудь рассказать о таком исходе?

расслаиваться
источник

Ответы:

16

Задачи классификации текста имеют тенденцию быть довольно многомерными (много функций), а задачи высокой размерности, вероятно, будут линейно разделимыми (поскольку вы можете разделить любые точки d + 1 в d-мерном пространстве с помощью линейного классификатора, независимо от того, как точки помечены). Таким образом, линейные классификаторы, будь то регрессия гребня или SVM с линейным ядром, скорее всего, преуспеют. В обоих случаях параметр гребня или C для SVM (как упоминает tdc +1) контролируют сложность классификатора и помогают избежать перевыбора, разделяя шаблоны каждого класса большими полями (т. Е. Поверхность решения проходит вниз по середина разрыва между двумя наборами точек). Однако, чтобы получить хорошую производительность, параметры гребня / регуляризации должны быть должным образом настроены (я использую перекрестную проверку без выходных, так как это дешево).

Тем не менее, причина того, что регрессия гребня работает хорошо, заключается в том, что нелинейные методы слишком мощные, и их трудно избежать. Может существовать нелинейный классификатор, который дает лучшую производительность обобщения, чем лучшая линейная модель, но слишком сложно оценить эти параметры, используя конечную выборку обучающих данных, которую мы имеем. На практике, чем проще модель, тем меньше у нас проблем с оценкой параметров, поэтому меньше склонностей к переоснащению, поэтому мы получаем лучшие результаты на практике.

Еще одна проблема - выбор признаков, регрессия гребня позволяет избежать переоснащения за счет регуляризации весов, чтобы они оставались небольшими, а выбор модели прост, поскольку вам нужно только выбрать значение одного параметра регрессии. Если вы попытаетесь избежать чрезмерной подгонки, выбрав оптимальный набор функций, то выбор модели станет трудным, так как существует определенная степень свободы (своего рода) для каждой функции, которая позволяет переопределить критерий выбора функции, и вы в конечном итоге набор функций, который является оптимальным для этой конкретной выборки данных, но который дает плохую производительность обобщений. Поэтому невыполнение выбора функций и использование регуляризации часто может дать лучшую прогнозирующую производительность.

Я часто использую Bagging (формирую комитет моделей, обученных на начальных выборках из обучающего набора) с моделями регрессии гребня, что часто дает улучшение производительности, и, поскольку все модели линейны, вы можете объединить их в единую линейную модель. Таким образом, производительность не снижается.

Дикран Сумчатый
источник
d-1d
Обычно предполагается, что точки находятся в «общем положении», так что (например) они не лежат на прямой линии, и в этом случае в двумерном пространстве вы можете отделить любые 3 точки. Если все точки лежат на одной прямой, то они действительно занимают 1-е подпространство, вложенное в 2-мерное пространство.
Дикран Сумчатый
В википедии есть утверждение «поскольку метод усредняет несколько предикторов, он не полезен для улучшения линейных моделей», хотя я не уверен, почему это должно быть правдой?
TDC
Я тоже не понимаю, почему это должно быть правдой. Я подозреваю, что проблема в том, что линейная модель в мешках может быть представлена ​​в точности одной линейной моделью, однако проблема заключается в оценке параметров отдельной модели, а не в форме модели. Я обнаружил, что использование мешков улучшает обобщение, но выигрыш, как правило, невелик, если у вас гораздо больше возможностей, чем наблюдений (поэтому оценка модели нестабильна, а небольшое изменение данных приводит к значительным изменениям в модели).
Дикран Marsupial
Может быть, вы должны обновить страницу Википедии! Вы звучите хорошо осведомленным в этом вопросе ...
ТДЦ
6

Хребетная регрессия, как следует из названия, является методом регрессии, а не классификации. Предположительно, вы используете порог, чтобы превратить его в классификатор. В любом случае вы просто изучаете линейный классификатор, который определяется гиперплоскостью. Причина, по которой он работает, заключается в том, что стоящая перед нами задача по существу линейно разделима - то есть простая гиперплоскость - это все, что необходимо для разделения классов. Параметр «гребень» позволяет ему работать в случаях, которые не являются полностью линейно разделимыми, или в задачах с недостатком ранга (в этом случае оптимизация будет вырожденной).

В этом случае нет причин, по которым другие классификаторы также не должны работать хорошо, если предположить, что они были реализованы правильно. Например, SVM находит «оптимальную разделяющую гиперплоскость» (т.е. гиперплоскость, которая максимизирует запас или разрыв между классами). CПараметр SVM представляет собой параметр , аналогичное регулирование мощности к параметру конька, который позволяет для некоторых неправильной классификации (отклоняющихся значений). Предполагая, что процесс выбора параметров был выполнен усердно, я ожидал бы, что два метода приведут к почти одинаковым результатам в таком наборе данных.

TDC
источник
2
Я помню, читая, можно показать, что бинарная классификация LS-SVM эквивалентна регрессионному гребню на -1,1 метках, их формулировка одинакова.
Firebug
Думаю, что вы можете быть правы в этом
TDC