Когда подходит логистическая регрессия?

12

В настоящее время я учу себя, как делать классификацию, и, в частности, я смотрю на три метода: опорные векторные машины, нейронные сети и логистическая регрессия. Я пытаюсь понять, почему логистическая регрессия будет лучше, чем две другие.

Исходя из моего понимания логистической регрессии, идея состоит в том, чтобы подогнать логистическую функцию ко всем данным. Поэтому, если мои данные являются двоичными, все мои данные с меткой 0 должны быть сопоставлены со значением 0 (или близко к нему), а все мои данные со значением 1 должны быть сопоставлены со значением 1 (или близко к нему). Теперь, поскольку логистическая функция является непрерывной и гладкой, выполнение этой регрессии требует, чтобы все мои данные соответствовали кривой; больше нет значения, применяемого к точкам данных вблизи границы принятия решения, и все точки данных вносят вклад в потерю в разной степени.

Однако с помощью машин опорных векторов и нейронных сетей важны только те точки данных, которые находятся вблизи границы принятия решения; до тех пор, пока точка данных остается на той же стороне границы решения, она будет вносить такую ​​же потерю.

Поэтому, почему бы логистической регрессии когда-либо превосходить опорные векторные машины или нейронные сети, учитывая, что она «тратит впустую ресурсы» при попытке подогнать кривую к большому количеству неважных (легко классифицируемых) данных, вместо того, чтобы фокусироваться только на сложных данных при принятии решения? граница?

Karnivaurus
источник
5
LR даст вам оценки вероятности, в то время как SVM даст бинарные оценки. Это также делает LR полезным, когда между классами нет разделяющей гиперплоскости. Кроме того, вы должны принять во внимание сложность алгоритмов и другие характеристики, такие как количество параметров и чувствительность.
Бар
1
Связано: stats.stackexchange.com/questions/127042/…
Sycorax сообщает, что восстановит Монику

Ответы:

28

Ресурсы, которые вы считаете «потраченными впустую», на самом деле являются информацией, получаемой благодаря логистической регрессии. Вы начали с неправильной предпосылки. Логистическая регрессия не является классификатором. Это оценка вероятности / риска. В отличие от SVM, он допускает и ожидает «закрытые вызовы». Это приведет к оптимальному принятию решения, потому что оно не пытается обмануть прогнозный сигнал для включения функции полезности, которая неявна всякий раз, когда вы классифицируете наблюдения. Целью логистической регрессии с использованием оценки максимального правдоподобия является обеспечение оптимальных оценок вероятности . Результат используется многими способами, например, кривые подъема, оценка кредитного риска и т. Д. См. Книгу Нейта Сильвера « Сигнал и шум».(Yзнак равно1|Икс) для убедительных аргументов в пользу вероятностных рассуждений.

Обратите внимание, что зависимая переменная в логистической регрессии может быть закодирована любым способом: 0/1, A / B, да / нет и т. Д.Y

Основное предположение о логистической регрессии состоит в том, что является действительно двоичным, например, он не был получен из базовой порядковой или непрерывной переменной отклика. Это, как и методы классификации, предназначено для феноменов «все или ничего».Y

Некоторые аналитики считают, что логистическая регрессия предполагает линейность эффектов предикторов в шкале логарифмов. Это было верно только тогда, когда Д.Р. Кокс изобрел логистическую модель в 1958 году в то время, когда вычисления были недоступны для расширения модели с использованием таких инструментов, как сплайны регрессии. Единственная реальная слабость в логистической регрессии заключается в том, что вам нужно указать, какие взаимодействия вы хотите разрешить в модели. Для большинства наборов данных это превращается в силу, потому что аддитивные основные эффекты, как правило, являются гораздо более сильными предикторами, чем взаимодействия, а методы машинного обучения, которые дают равный приоритет взаимодействиям, могут быть нестабильными, трудными для интерпретации и требующими больших размеров выборки, чем логистическая регрессия для прогнозирования. Что ж.

Фрэнк Харрелл
источник
6
+1. Честно говоря, я никогда не находил SVM полезными. Они сексуальны, но их медленно тренировать и забивать - по моему опыту - и есть много вариантов, с которыми вам нужно поиграться (включая ядро). Нейронные сети, которые я нашел полезными, но также много опций и настроек. Логистическая регрессия проста и дает достаточно хорошо откалиброванные результаты из коробки. Калибровка важна для реального использования. Конечно, недостатком является то, что он линейный, поэтому не может вместить кластерные данные, кусковые данные, а также другие методы, такие как Random Forest.
Уэйн
1
Отличный ответ. Кстати, вам может быть интересно узнать, что в последнее время обучающиеся машинным технологиям стали внедрять свои причудливые методы в традиционные рамки, такие как наказуемое максимальное правдоподобие, и оказывается, что причудливые методы работают намного лучше, когда это делается. Рассмотрим XGBoost, возможно, самый эффективный из существующих алгоритмов усиления древовидного ансамбля. Математика здесь: xgboost.readthedocs.io/en/latest/model.html . Это должно выглядеть довольно знакомым для традиционного статистика, и вы можете приспособить модели для многих общих статистических целей с обычными функциями потерь.
Пол
5

Вы правы, часто логистическая регрессия плохо работает в качестве классификатора (особенно по сравнению с другими алгоритмами). Однако это не означает, что логистическая регрессия должна быть забыта и никогда не изучаться, поскольку она имеет два больших преимущества:

  1. Вероятностные результаты. Фрэнк Харрелл (+1) очень хорошо объяснил это в своем ответе.

  2. Yзнак равно1Икс1знак равно12Икс2,,,,Иксп

TrynnaDoStat
источник
5
И кажущаяся низкая производительность в качестве классификатора является результатом использования неправильной оценки точности, а не проблемы, присущей логистической регрессии.
Фрэнк Харрелл
@FrankHarrell: В последнее время я проводил некоторые эксперименты, и я бы сказал, что логистическая регрессия подходит для данных с гораздо меньшей свободой, чем другие методы. Вам нужно добавить взаимодействия и сделать больше возможностей, чтобы соответствовать, скажем, гибкости случайного леса или GAM. (Конечно, гибкость - это канат, который пересекает пропасть переоснащения.)
Уэйн
3
@wayne Эта меньшая свобода, как вы говорите, очень полезна во многих случаях, потому что она обеспечивает стабильность
rapaio
3
Предполагая, что условия взаимодействия менее важны, чем аддитивные термины, добавьте гибкости, но вы можете ослабить эти предположения разными способами. Я добавлю больше об этом в моем первоначальном ответе.
Фрэнк Харрелл
2
@rapaio: Да, гибкость опасна как в плане переоснащения, так и в других отношениях. Это проблема домена / использования: ваши данные зашумлены, или это действительно «комковато / кластерно», если я могу использовать этот термин?
Уэйн