Сравнение SVM и логистической регрессии

37

Может кто-нибудь подсказать, когда выбрать SVM или LR? Я хочу понять интуицию, лежащую в основе различий между критериями оптимизации изучения гиперплоскости двух, где соответствующие цели заключаются в следующем:

  • SVM: попытаться максимизировать разницу между ближайшими векторами поддержки
  • LR: максимизировать апостериорную вероятность класса

Давайте рассмотрим линейное пространство признаков как для SVM, так и для LR.

Некоторые различия, о которых я уже знаю:

  1. SVM является детерминированным (но мы можем использовать модель Платтса для оценки вероятности), в то время как LR является вероятностным.
  2. Для пространства ядра SVM быстрее (хранит только векторы поддержки)
user41799
источник
2
Это утверждение неверно: « LR: максимизировать апостериорную вероятность класса ». Логистическая регрессия максимизирует вероятность, а не некоторую апостериорную плотность. Байесовская логистическая регрессия - это отдельная история, но вы должны быть конкретны в этом, если вы на это ссылаетесь.
Digio

Ответы:

30

Линейные SVM и логистическая регрессия обычно работают сравнительно на практике. Используйте SVM с нелинейным ядром, если у вас есть основания полагать, что ваши данные не будут линейно разделимы (или вам нужно быть более устойчивым к выбросам, чем обычно допускает LR). В противном случае, просто сначала попробуйте логистическую регрессию и посмотрите, как вы поступите с этой более простой моделью. Если логистическая регрессия не удалась, попробуйте SVM с нелинейным ядром, таким как RBF.

РЕДАКТИРОВАТЬ:

Хорошо, давайте поговорим о том, откуда берутся целевые функции.

Логистическая регрессия происходит от обобщенной линейной регрессии. Хорошее обсуждение целевой функции логистической регрессии в этом контексте можно найти здесь: https://stats.stackexchange.com/a/29326/8451

Алгоритм опорных векторов гораздо более геометрически мотивирован . Вместо того, чтобы предполагать вероятностную модель, мы пытаемся найти конкретную оптимальную разделяющую гиперплоскость, где мы определяем «оптимальность» в контексте опорных векторов. У нас нет ничего похожего на статистическую модель, которую мы используем здесь в логистической регрессии, хотя линейный случай даст нам аналогичные результаты: на самом деле это просто означает, что логистическая регрессия делает довольно хорошую работу по созданию классификаторов с «широким запасом», поскольку это все, что пытается сделать SVM (в частности, SVM пытается «максимизировать» разницу между классами).

Я постараюсь вернуться к этому позже и немного углубиться в сорняки, я просто в какой-то мере: p

Дэвид Маркс
источник
1
Но это все еще не отвечает на мой вопрос о том, какова интуитивная разница в целевых функциях SVM v / s LR, которые заключаются в следующем: (a) SVM: попытаться максимизировать разницу между ближайшими опорными векторами (b) LR: Максимизируйте вероятность апостериорного класса
user41799
Я имею в виду, это совершенно другой вопрос. Вы спрашиваете о том, когда использовать модели, или что мотивирует форму их целевых функций?
Дэвид Маркс
1
Меня больше интересует, что мотивирует форму их целевых функций
user41799
4
Я попытаюсь вернуться к этому позже и немного углубиться в сорняки, я просто как-то в середине чего-то Четыре года спустя ...
user1717828
23

Логистическая регрессия против СВМ

Изображение показывает разницу между SVM и логистической регрессией и где использовать какой метод

эта картина взята из курса Coursera: «Машинное обучение» Эндрю Н.Г. Его можно найти на седьмой неделе в конце: «Машины опорных векторов - с использованием SVM»

JSONParser
источник
Под «функциями» подразумевается количество уникальных атрибутов или общее количество уникальных значений, принадлежащих этим атрибутам?
Ахмедов
Например: в прогнозировании цен на каучук одна особенность - это цена на бензин, другая - погода и т. д.
JSONParser
На самом деле, изображение ничего не говорит об их различиях ...
Ян Кукацка
разница может быть неправильной, сравнение слов может быть лучше
JSONParser
1
  • LR дает откалиброванные вероятности, которые можно интерпретировать как уверенность в принятии решения.
  • LR дает нам неограниченную, гладкую цель.
  • LR можно (прямо) использовать в байесовских моделях.
  • SVM не наказывают за примеры, для которых правильное решение принимается с достаточной уверенностью. Это может быть хорошо для обобщения.
  • SVM имеют приятную двойственную форму, предоставляя разреженные решения при использовании трюка с ядром (лучшая масштабируемость)

Посмотрите опорные векторные машины против логистической регрессии, Университет Торонто CSC2515 Кевина Сверски.

Чанки патхак
источник