Я понимаю, что одной из причин, по которым логистическая регрессия часто используется для прогнозирования рейтинга кликов в Интернете, является то, что она производит хорошо откалиброванные модели. Есть ли хорошее математическое объяснение этому?
regression
logistic
lsankar4033
источник
источник
Ответы:
Да.
Предсказанный вектор вероятности из логистической регрессии удовлетворяет матричному уравнениюp
Где - матрица дизайна, а - вектор ответа. Это можно рассматривать как совокупность линейных уравнений, один , вытекающую из каждого столбца матрицы плана .X y X
Специализируясь на столбце перехвата (который является строкой в транспонированной матрице), соответствующее линейное уравнение имеет вид
Таким образом, общая средняя прогнозируемая вероятность равна среднему значению ответа.
В более общем случае для столбца двоичных объектов соответствующее линейное уравнение имеет видxij
таким образом, сумма (и, следовательно, средняя) прогнозируемых вероятностей равна сумме отклика, даже если она специализируется на тех записях, для которых .xij=1
источник
Я думаю, что могу дать вам простое для понимания объяснение следующим образом:
Мы знаем, что его функция потерь может быть выражена в виде следующей функции: Где представляет количество всех обучающих выборок, метка i-го образца, прогнозируемая вероятность i-го образца: . (обратите внимание на смещение здесь)
J(θ)=−1m∑i=1m[y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))]
y(i) hθ(x(i)) 11+exp[−α−∑jθjx(i)j] α
m
Поскольку целью обучения является минимизация функции потерь, давайте ее частную производную по каждому параметру (подробный вывод можно найти здесь ): И установив его на ноль, вы получите:θj
∂J(θ)∂θj=1m∑i=1m[hθ(x(i))−y(i)]x(i)j
∑i=1mhθ(x(i))x(i)j=∑i=1my(i)x(i)j
Это означает, что если модель полностью обучена, прогнозируемые вероятности, которые мы получаем для обучающего набора, распределяются так, что для каждого признака сумма взвешенных (всех) значений этого признака равна сумме значений этого признака из положительных образцов.
Вышесказанное подходит для каждой функции, так как смещение . Установка в 1 и качестве дает: Тогда мы получим: где - прогнозируемая вероятность полностью обученной модели для i-й выборки. И мы можем написать функцию в компактном виде:α x0 α θ0
∑i=1mhθ(x(i))x(i)0=∑i=1my(i)x(i)0 ∑i=1mhθ(x(i))=∑i=1my(i) hθ(x(i)) ∑i=1mp(i)=∑i=1my(i)
Мы видим, очевидно, что логистическая регрессия хорошо откалибрована.
Ссылка: Лог-линейные модели и условные случайные поля Чарльз Элкан
источник