Estou dando uma aula de pesquisa de análise numérica e buscando motivação para o método BFGS para alunos com formação / intuição limitada em otimização!
J k ( → x k - → x k - 1 ) = f ( → x k ) - f ( → x k - 1 )
As derivações das atualizações do BFGS parecem muito mais envolvidas e obscuras! Em particular, eu gostaria de não assumir a priori que a atualização deve ser de nível 2 ou assumir uma forma específica. Existe uma pequena motivação de aparência variada para a atualização do BFGS Hessian como a de Broyden?
optimization
iterative-method
nonlinear-programming
Justin Solomon
fonte
fonte
Respostas:
A derivação do BFGS é mais intuitiva quando se considera (estritamente) funcionais de custo convexos:
No entanto, algumas informações básicas são necessárias: Suponha que alguém deseje minimizar uma função convexa Digamos que exista uma solução aproximada . Então, aproxima-se o mínimo de f pelo mínimo da expansão truncada de Taylor f (x_k + p) \ approx f (x_k) + \ nabla f (x_k) ^ Tp + \ frac {1} {2} p ^ TH ( x_k) p. \ quad (*) Ou seja, procura-se p tal que (*) seja mínimo e defina x_ {k + 1}: = x_k + p . Computar o gradiente de (*) - "em relação a p " - e defini-lo como zero fornece a relação x k f f ( x k + p ) ≈ f ( x k ) + ∇ f ( x k ) T p + 1
Como o cálculo e a inversão do Hessian são caros ...
... uma resposta curta
(cf. atualização de Broyden) pode ser que a atualização BFGSH- 1k + 1 minimize
Então a escolha do peso emW ∥ H∥W: = ∥ W1 / 2HW1 / 2∥F
G : = ∫1 10 0H( xk+ τp ) dτ αk= 1
como o inverso doHessiano médio , cf. aqui para a declaração, mas sem prova, fornece a fórmula de atualização do BFGS (com ).Os principais pontos são:
Uma resposta mais longa deve incluir como escolher os pesos, como fazer isso funcionar para problemas não-convexos (onde aparece uma condição de curvatura que requer uma escala da direção de pesquisa ) e como derivar a fórmula real da atualização. Uma referência está aqui (em alemão).p
fonte