В небольшой проблеме классификации текста, которую я рассматривал, Наивный Байес демонстрирует производительность, аналогичную или превышающую SVM, и я был очень смущен.
Мне было интересно, какие факторы определяют триумф одного алгоритма над другим. Существуют ли ситуации, когда нет смысла использовать наивный байесовский метод вместо SVM? Может кто-то пролить свет на это?
Ответы:
Не существует единого ответа о том, какой метод классификации является лучшим для данного набора данных . Различные виды классификаторов должны всегда рассматриваться для сравнительного исследования по данному набору данных. Учитывая свойства набора данных, у вас могут быть некоторые подсказки, которые могут отдавать предпочтение некоторым методам. Однако было бы целесообразно поэкспериментировать со всеми, если это возможно.
Наивный байесовский классификатор (NBC) и метод опорных векторов (SVM) имеют различные параметры, включая выбор функции ядра для каждого из них. Они оба чувствительны к оптимизации параметров (т. Е. Выбор различных параметров может существенно изменить их выход) . Итак, если у вас есть результат, показывающий, что NBC работает лучше, чем SVM. Это верно только для выбранных параметров. Тем не менее, для выбора другого параметра, вы можете обнаружить, что SVM работает лучше.
В целом, если предположение о независимости в NBC удовлетворяется переменными вашего набора данных и степень перекрытия классов мала (то есть потенциальная линейная граница принятия решения), ожидается, что NBC достигнет хорошего. Например, для некоторых наборов данных при оптимизации с использованием выбора функции оболочки NBC может победить другие классификаторы. Даже если он достигает сопоставимой производительности, NBC будет более желательным из-за его высокой скорости.
Таким образом, мы не должны отдавать предпочтение какому-либо методу классификации, если он превосходит другие в одном контексте, так как в другом он может серьезно не сработать. ( ЭТО НОРМАЛЬНО В ПРОБЛЕМАХ ОБРАБОТКИ ДАННЫХ ).
источник