Мне трудно вывести гессиан целевой функции в логистической регрессии, где равно:
- логистическая функция. Гессиан . Я пытался вывести его путем расчета , но тогда это не было очевидно для менякак добраться до матричном из .
Кто-нибудь знает какой-нибудь простой и понятный способ получения ?
Ответы:
Здесь я вывожу все необходимые свойства и тождества для того, чтобы решение было автономным, но кроме этого этот вывод является чистым и легким. Давайте формализуем наши обозначения и напишем функцию потерь немного более компактно. Рассмотримm образцы {xi,yi} такое , что xi∈Rd и yi∈R . Напомним, что в бинарной логистической регрессии мы обычно имеем функцию гипотезы hθ которая является логистической функцией. Формально
гдеω∈Rd и zi=ωTxi . Функция потерь (которая, как я считаю, у ОП отсутствует знак минус) определяется следующим образом:
Есть два важных свойства логистической функции, которые я выведу здесь для дальнейшего использования. Во-первых, обратите внимание, что1−σ(z)=1−1/(1+e−z)=e−z/(1+e−z)=1/(1+ez)=σ(−z) .
Также обратите внимание, что
Instead of taking derivatives with respect to components, here we will work directly with vectors (you can review derivatives with vectors here). The Hessian of the loss functionl(ω) is given by ∇⃗ 2l(ω) , but first recall that ∂z∂ω=xTω∂ω=xT and ∂z∂ωT=∂ωTx∂ωT=x .
Letli(ω)=−yilogσ(zi)−(1−yi)log(1−σ(zi)) . Using the properties we derived above and the chain rule
It's now trivial to show that
whew!
Our last step is to compute the Hessian
Form samples we have ∇⃗ 2l(ω)=∑mi=1xixTiσ(zi)(1−σ(zi)) . This is equivalent to concatenating column vectors xi∈Rd into a matrix X of size d×m such that ∑mi=1xixTi=XXT . The scalar terms are combined in a diagonal matrix D such that Dii=σ(zi)(1−σ(zi)) . Finally, we conclude that
A faster approach can be derived by considering all samples at once from the beginning and instead work with matrix derivatives. As an extra note, with this formulation it's trivial to show thatl(ω) is convex. Let δ be any vector such that δ∈Rd . Then
sinceD>0 and ∥δTX∥≥0 . This implies H is positive-semidefinite and therefore l is convex (but not strongly convex).
источник