Аппроксимация второго порядка функции потерь (Книга глубокого обучения, 7.33)

11

В книге Гудфеллоу (2016) о глубоком обучении он говорил об эквивалентности раннего прекращения регуляризации L2 ( https://www.deeplearningbook.org/contents/regularization.html стр. 247).

Квадратичная аппроксимация функции стоимости j определяется как:

J^(θ)=J(w)+12(ww)TH(ww)

H

f(w+ϵ)=f(w)+f(w)ϵ+12f(w)ϵ2

stevew
источник

Ответы:

15

Они говорят о весах в оптимальном режиме:

Мы можем смоделировать функцию стоимости с квадратичным приближением в окрестности эмпирически оптимального значения весовJw

В этот момент первая производная равна нулю, поэтому средний член не учитывается.

Ян Кукацка
источник