Интуиция позади логистической регрессии

25

Недавно я начал изучать машинное обучение, однако мне не удалось понять интуицию, лежащую в основе логистической регрессии .

Ниже приведены факты о логистической регрессии, которые я понимаю.

  1. В качестве основы для гипотезы мы используем сигмовидную функцию . Я понимаю , почему это правильный выбор, однако , почему это единственный выбор , который я не понимаю. Гипотеза представляет вероятность того, что соответствующий вывод равен , поэтому область нашей функции должна быть , это единственное свойство сигмоидальной функции, которое я нашел здесь полезным и подходящим, однако многие функции удовлетворяют этому свойству. Кроме того, сигмоидная функция имеет производную в этой форме , но я не вижу полезности этой специальной формы в логистической регрессии.[ 0 , 1 ] f ( x ) ( 1 - f ( x ) )1[0,1]е(Икс)(1-е(Икс))

    Вопрос : что особенного в сигмоидальной функции и почему мы не можем использовать любую другую функцию с доменом ?[0,1]

  2. Функция стоимости состоит из двух параметров если если . В том же, что и выше, я понимаю, почему это правильно, но почему это единственная форма? Например, почему не можетбыть хорошим выбором для функции стоимости?у = 1 , С о с т ( ч θ ( х ) , у ) = - журнал ( 1 - ч θ ( х ) ) y = 0 | h θ ( x )СоsT(часθ(Икс),Y)знак равно-журнал(часθ(Икс))Yзнак равно1,СоsT(часθ(Икс),Y)знак равно-журнал(1-часθ(Икс))y=0|hθ(x)y|

    Вопрос : что особенного в вышеуказанной форме функции стоимости; почему мы не можем использовать другую форму?

Буду признателен, если вы поделитесь своим пониманием логистической регрессии.

user16168
источник
5
Логит / логистическая функция - не единственная функция, которую можно использовать в качестве функции связи для регрессионных моделей, когда ответ распределяется в виде бинома. Что касается этого пункта, он может помочь вам прочитать мой ответ здесь: различие между logit-and-probit-models .
gung - Восстановить Монику
4
Мой ответ здесь: всегда ли функция logit наилучшая для регрессионного моделирования двоичных данных , она также может быть полезна для размышлений о различных возможностях.
gung - Восстановить Монику
1
@AdamO предоставляет отличный обзор ниже. Если вам нужна более подробная информация о том, что означает, что logit является «канонической функцией связи», вы можете прочитать ответ Момо здесь: разность-связь-функция-и-каноническая ссылка-функция-для-glm .
gung - Восстановить Монику
1
Проработанный иллюстрированный пример (1), где «сигмоид» не используется, представлен на stats.stackexchange.com/a/70922 . Этот ответ включает в себя объяснение (2). Другой пример появляется на stats.stackexchange.com/questions/63978/… . Более обычное (но менее техническое) обсуждение происходит на stats.stackexchange.com/a/69873 с упором на проблему (2).
whuber

Ответы:

7

Модель логистической регрессии - это максимальная вероятность, использующая естественный параметр (отношение логарифмических шансов) для сопоставления относительных изменений риска результата на единицу разницы в предикторе. Это предполагает, конечно, биномиальную модель вероятности для результата. Это означает, что свойства согласованности и устойчивости логистической регрессии простираются непосредственно от максимальной вероятности: устойчивые к отсутствию случайных данных, согласованности root-n, а также наличия и уникальности решений для оценки уравнений. Это при условии, что решения не находятся на границах пространства параметров (где отношения логарифмов равны ). Поскольку логистическая регрессия является максимальной вероятностью, функция потерь связана с вероятностью, поскольку они являются эквивалентными задачами оптимизации.±

В случае квазилидных или оценивающих уравнений (полупараметрический вывод) существование, свойства уникальности все еще сохраняются, но предположение о том, что средняя модель имеет место, не имеет значения, а логический вывод и стандартные ошибки согласованы независимо от ошибочной спецификации модели. Таким образом, в данном случае вопрос не в том, является ли сигмоида правильной функцией, а в том, что дает нам тенденцию, в которую мы можем верить, и параметризуемую параметрами, которые имеют расширяемую интерпретацию.

Сигмоид, однако, не единственная такая функция бинарного моделирования. Наиболее часто контрастирующая пробит-функция имеет аналогичные свойства. Он не оценивает отношения логарифмов, но функционально они выглядят очень похожими и имеют тенденцию давать очень похожие приближения к одной и той же вещи . Также не нужно использовать свойства привязанности в средней модели. Простое использование логарифмической кривой с функцией биномиальной дисперсии дает регрессию относительного риска, а идентификационная связь с биномиальной дисперсией - модели аддитивного риска. Все это определяется пользователем. К сожалению, популярность логистической регрессии так часто используется. Тем не менее, у меня есть свои причины (те, которые я изложил), почему я думаю, что это вполне оправдано для использования в большинстве случаев моделирования двоичного результата.

В мире логического вывода для редких результатов отношение шансов можно грубо интерпретировать как «относительный риск», то есть «относительное процентное изменение риска исхода при сравнении X + 1 и X». Это не всегда так, и, как правило, отношение шансов не может и не должно интерпретироваться как таковое. Однако то, что параметры имеют интерпретацию и могут быть легко переданы другим исследователям, является важным моментом, чего, к сожалению, не хватает в дидактических материалах машинного обучения.

Модель логистической регрессии также обеспечивает концептуальные основы для более сложных подходов, таких как иерархическое моделирование, а также подходы смешанного моделирования и условного правдоподобия, которые являются последовательными и устойчивыми к экспоненциально растущему числу параметров помех. GLMM и условная логистическая регрессия являются очень важными понятиями в многомерной статистике.

Adamo
источник
1
Большое спасибо за ответ! Кажется, у меня огромный недостаток в фоновом режиме.
user16168
Я думаю, что книга Маккалоу и Нелдера «Обобщенные линейные модели» была бы отличным справочным ресурсом для большей статистики.
AdamO
В целом, какой учебник вы советуете по машинному обучению с очень подробным описательным содержанием?
user16168 30.09.13
Элементы статистического обучения Хасти, Тибширани, Фридмана.
AdamO
2
@ user48956 Статистический анализ с Missing Dada, Little & Rubin 2nd ed. Пропущенные данные не «представлены» как таковые, а «обработаны» пропуском. Это не относится к логистической регрессии: это наивный подход, используемый всеми статистическими моделями. Когда данные форматируются в прямоугольном массиве, строки с пропущенными значениями опускаются. Это известно как полный анализ случая. GLM и GLMMS устойчивы к отсутствующим данным в том смысле, что полный анализ случаев, как правило, беспристрастен и не очень неэффективен.
AdamO
6

YИксYYИксYязнак равноИксяβ+εя

Y*YY*

Yя*знак равноИксяβ+εяYязнак равно0еслиYя*<0Yязнак равно1еслиYя*>0
Икс

Y*ИксYY*

βεFп{Yязнак равно1}знак равноF(Иксяβ)

п{Yязнак равно1}знак равно1-F(-Иксяβ)

εF

F

Билл
источник
То, что вы описали, это именно мотивация для пробитной модели, а не логистическая регрессия.
AdamO
6
εя
Это похоже на очень деликатное предположение, которое было бы трудно проверить. Я думаю, что логистическая регрессия может быть мотивирована, когда такие распределения ошибок не выполняются.
AdamO
2
@AdamO, как бы вы ни мотивировали логистическую регрессию, она все равно математически эквивалентна пороговой модели линейной регрессии, в которой ошибки имеют логистическое распределение. Я согласен, что это предположение может быть трудно проверить, но оно существует независимо от того, как вы мотивируете проблему. Я вспоминаю предыдущий ответ на резюме (я не могу его сейчас разместить), который показал в ходе имитационного исследования, что попытка определить, подходит ли логистическая или пробитовая модель «лучше», была в основном монетой, независимо от истинной модели генерирования данных. , Я подозреваю, что логистика более популярна из-за удобной интерпретации.
Макрос
2
п(Yязнак равно1)знак равноеИксп(Иксяβ)1+еИксп(Иксяβ)