Может кто-нибудь объяснить мне преимущества и недостатки классификации SVM, которая отличает ее от других классификаторов?
machine-learning
svm
lakesh
источник
источник
Ответы:
Есть четыре основных преимущества: во-первых, у него есть параметр регуляризации, который заставляет пользователя задуматься о том, чтобы избежать чрезмерной подгонки. Во-вторых, он использует трюк с ядром, поэтому вы можете получить экспертные знания о проблеме с помощью разработки ядра. В-третьих, SVM определяется задачей выпуклой оптимизации (без локальных минимумов), для которой существуют эффективные методы (например, SMO). Наконец, это приближение к пределу частоты ошибок теста, и за этим стоит существенная теория, которая предполагает, что это должна быть хорошая идея.
Недостатки в том, что теория действительно охватывает только определение параметров для заданного значения регуляризации и параметров ядра и выбор ядра. Таким образом, SVM перемещает проблему переоснащения от оптимизации параметров к выбору модели. К сожалению, модели ядра могут быть весьма чувствительны к чрезмерному соответствию критерию выбора модели, см.
GC Cawley и NLC Talbot, Чрезмерная подгонка при выборе модели и последующая систематическая ошибка выбора при оценке производительности, Journal of Machine Learning Research, 2010. Research, vol. 11, с. 2079-2107, июль 2010 г. ( pdf )
Однако обратите внимание, что эта проблема не уникальна для методов ядра, большинство методов машинного обучения имеют схожие проблемы. Потеря шарнира, используемая в SVM, приводит к разреженности. Тем не менее, зачастую оптимальный выбор параметров ядра и регуляризации означает, что все данные будут опорными векторами. Если вам действительно нужна машина с разреженным ядром, используйте то, что с самого начала было разработано так, чтобы быть разреженным (а не полезным побочным продуктом), например, информационную векторную машину. Функция потерь, используемая для регрессии опорных векторов, не имеет очевидной статистической интерпретации, часто экспертные знания о проблеме могут быть закодированы в функции потерь, например, Пуассона, Бета или Гаусса. Аналогично во многих задачах классификации вы на самом деле хотите вероятность членства в классе,
Это почти все, что я могу придумать.
источник