В чем разница между линейной регрессией и логистической регрессией?
Когда бы вы использовали каждый?
regression
logistic
linear-model
Б Семерка
источник
источник
Ответы:
Линейная регрессия использует общее линейное уравнение , где представляет собой непрерывные зависимые переменные и независимые переменные являются , как правило , непрерывными (но также может быть двоичным, например , когда линейная модель используется в t- тест) или другие дискретные домены. - это термин для дисперсии, который не объясняется моделью и обычно называется просто «ошибка». Отдельные зависимые значения, обозначаемые могут быть решены путем небольшого изменения уравнения:Y X iY=b0+∑(biXi)+ϵ Y Xi ϵ Yj Yj=b0+∑(biXij)+ϵj
Логистическая регрессия - это еще одна процедура обобщенной линейной модели (GLM), использующая ту же базовую формулу, но вместо непрерывного она регрессирует для вероятности категориального исхода. В простейшей форме это означает, что мы рассматриваем только одну переменную результата и два состояния этой переменной - либо 0, либо 1.Y
Уравнение для вероятности выглядит так:Y=1
Ваши независимые переменные могут быть непрерывными или двоичными. Коэффициенты регрессии могут быть возведены в степень, чтобы дать вам изменение шансов на изменение , то есть и . называется отношением шансов, . На английском языке вы можете сказать, что шансы увеличиваются с коэффициентом на единицу изменения в .Xi bi Y Xi ΔOddOdds=P(Y=1)P(Y=0)=P(Y=1)1−P(Y=1) ΔOdds=ebi ΔOdds Y=1ebiXiOdds(Xi+1)Odds(Xi) Y=1 ebi Xi
Пример. Если вы хотите узнать, как индекс массы тела предсказывает уровень холестерина в крови (непрерывный показатель), вы бы использовали линейную регрессию, как описано в верхней части моего ответа. Если вы хотите увидеть, как ИМТ прогнозирует вероятность диабета (бинарный диагноз), вы бы использовали логистическую регрессию.
источник
Линейная регрессия используется для установления взаимосвязи между зависимыми и независимыми переменными, что полезно при оценке результирующей зависимой переменной в случае изменения независимой переменной. Например:
Используя линейную регрессию, соотношение между Rain (R) и Umbrella Sales (U) определяется как - U = 2R + 5000
Это уравнение говорит о том, что на каждый 1 мм дождя существует потребность в 5002 зонтах. Таким образом, используя простую регрессию, вы можете оценить значение вашей переменной.
С другой стороны, логистическая регрессия используется для определения вероятности события. И это событие записывается в двоичном формате, то есть 0 или 1.
Пример - я хочу выяснить, купит ли клиент мой товар или нет. Для этого я бы запустил логистическую регрессию для (соответствующих) данных, а моя зависимая переменная была бы двоичной переменной (1 = Да; 0 = Нет).
С точки зрения графического представления, линейная регрессия дает линейную линию в качестве выходных данных, как только значения нанесены на график. Принимая во внимание, что логистическая регрессия дает S-образную линию
Отзыв от Мохит Хурана.
источник
Различия были урегулированы DocBuckets и Pardis, но я хочу добавить один способ сравнить их производительность, не упомянутую.
Линейная регрессия обычно решается путем минимизации ошибки наименьших квадратов модели к данным, поэтому большие ошибки штрафуются квадратично. Логистическая регрессия как раз наоборот. Использование функции логистических потерь приводит к штрафу больших ошибок к асимптотически постоянной.
Рассмотрим линейную регрессию на категориальных {0,1} результатах, чтобы понять, почему это проблема. Если ваша модель предсказывает, что результат равен 38, а истина равна 1, вы ничего не потеряли. Линейная регрессия будет пытаться уменьшить эти 38, логистическая не будет (так много).
источник