Aproximação de segunda ordem da função de perda (Deep learning book, 7.33)

11

No livro de Goodfellow (2016) sobre aprendizado profundo, ele falou sobre a equivalência da parada antecipada à regularização de L2 ( https://www.deeplearningbook.org/contents/regularization.html página 247).

A aproximação quadrática da função de custo é dada por:j

J^(θ)=J(w)+12(ww)TH(ww)

onde é a matriz hessiana (Eq. 7.33). Isso está faltando no meio termo? A expansão de Taylor deve ser: H

f(w+ϵ)=f(w)+f(w)ϵ+12f(w)ϵ2

estiva
fonte

Respostas:

15

Eles falam sobre os pesos no ideal:

Podemos modelar a função de custo J com uma aproximação quadrática na vizinhança do valor empiricamente ótimo dos pesos w

Nesse ponto, a primeira derivada é zero - o termo do meio é deixado de fora.

Jan Kukacka
fonte