Почему логистическая регрессия дает хорошо откалиброванные модели?

13

Я понимаю, что одной из причин, по которым логистическая регрессия часто используется для прогнозирования рейтинга кликов в Интернете, является то, что она производит хорошо откалиброванные модели. Есть ли хорошее математическое объяснение этому?

lsankar4033
источник
2
логистическая регрессия, сделанная для прогнозирования вероятностей -> которые приводят к калиброванным прогнозам, если не превышают. в то время как большинство моделей машинного обучения не предсказывают вероятности, а скорее классы - и из этих предсказаний есть некоторое искажение к полученным псевдобабилитам -> следовательно, обратите внимание, хорошо откалиброваны
charles
2
Я должен был уточнить в этом вопросе, но мой вопрос был больше о том, почему это так, что LR так полезен для прогнозирования вероятностей.
lsankar4033
Стоит отметить, что вы можете просто подогнать логистическую регрессию к выходу плохо калиброванного классификатора, чтобы получить калиброванную модель. Это называется масштабированием Платта en.wikipedia.org/wiki/Platt_scaling
generic_user

Ответы:

15

Да.

Предсказанный вектор вероятности из логистической регрессии удовлетворяет матричному уравнениюp

Xt(py)=0

Где - матрица дизайна, а - вектор ответа. Это можно рассматривать как совокупность линейных уравнений, один , вытекающую из каждого столбца матрицы плана .XyX

Специализируясь на столбце перехвата (который является строкой в ​​транспонированной матрице), соответствующее линейное уравнение имеет вид

i(piyi)=0

Таким образом, общая средняя прогнозируемая вероятность равна среднему значению ответа.

В более общем случае для столбца двоичных объектов соответствующее линейное уравнение имеет видxij

ixij(piyi)=ixij=1(piyi)=0

таким образом, сумма (и, следовательно, средняя) прогнозируемых вероятностей равна сумме отклика, даже если она специализируется на тех записях, для которых .xij=1

Мэтью Друри
источник
1
@ MatthewDrury, как я могу интерпретировать ваше первое уравнение? является от формы ? Тем не менее это линейное соотношение справедливо? Спасибо! p1/(1+exp(x))
Рик
1
Да, р этой формы. Первое уравнение приходит от установки производной функции потерь на ноль.
Мэтью Друри
1
Это касается только калибровки в большом, а это не то, что нам нужно: калибровка в малом.
Фрэнк Харрелл
1
@FrankHarrell Хотите разработать? Я не слышал эти условия раньше.
Мэтью Друри
3
В литературе по прогнозам вероятности, датируемой Службой погоды США 1950 года, существует длинная история - именно здесь впервые использовался показатель Бриера. «Калибровка в малом» означает, что если посмотреть на прогнозируемые риски 0,01, 0,02, ..., 0,99, то каждый из них является точным, т. Е. Для всех случаев, когда прогнозируемый риск составлял 0,4, результат был около 0,4 время. Я называю «калибровка в крошечном» следующим шагом: для мужчин, у которых прогноз составлял 0,4, был результат, существующий в 0,4 времени, затем для женщин.
Фрэнк Харрелл
2

Я думаю, что могу дать вам простое для понимания объяснение следующим образом:

Мы знаем, что его функция потерь может быть выражена в виде следующей функции: Где представляет количество всех обучающих выборок, метка i-го образца, прогнозируемая вероятность i-го образца: . (обратите внимание на смещение здесь)

J(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

my(i)hθ(x(i))11+exp[αjθjxj(i)]α

Поскольку целью обучения является минимизация функции потерь, давайте ее частную производную по каждому параметру (подробный вывод можно найти здесь ): И установив его на ноль, вы получите:θj

J(θ)θj=1mi=1m[hθ(x(i))y(i)]xj(i)


i=1mhθ(x(i))xj(i)=i=1my(i)xj(i)

Это означает, что если модель полностью обучена, прогнозируемые вероятности, которые мы получаем для обучающего набора, распределяются так, что для каждого признака сумма взвешенных (всех) значений этого признака равна сумме значений этого признака из положительных образцов.

Вышесказанное подходит для каждой функции, так как смещение . Установка в 1 и качестве дает: Тогда мы получим: где - прогнозируемая вероятность полностью обученной модели для i-й выборки. И мы можем написать функцию в компактном виде: αx0αθ0

i=1mhθ(x(i))x0(i)=i=1my(i)x0(i)
i=1mhθ(x(i))=i=1my(i)
hθ(x(i))
i=1mp(i)=i=1my(i)

Мы видим, очевидно, что логистическая регрессия хорошо откалибрована.

Ссылка: Лог-линейные модели и условные случайные поля Чарльз Элкан

Лернер Чжан
источник