Entendendo a “taxa de convergência” para métodos iterativos

13

Segundo a Wikipedia, a taxa de convergência é expressa como uma proporção específica de normas de vetores. Estou tentando entender a diferença entre taxas "lineares" e "quadráticas", em diferentes pontos do tempo (basicamente, "no início" da iteração e "no final"). Pode-se afirmar que:

  • ek+1xk+1__ek__

  • com convergência quadrática, a norma do erro da iteração x_ {k + 1} é delimitada por \ | e_k \ | ^ 2ek+1xk+1__ek__2

Tal interpretação significaria que, com algumas (pequeno número de) iterações do algoritmo linearmente convergente A1 (inicialização aleatória assumida), um erro menor seria alcançado que com algumas iterações do algoritmo A2 quadraticamente convergente. No entanto, como o erro diminui e, devido ao quadrado, iterações posteriores significariam um erro menor com A2.

A interpretação acima é válida? Observe que isso desconsidera o coeficiente de taxa λ .

usero
fonte
1
Também é possível que o seu quadraticamente convergente algoritmo começa com um erro maior do que o seu algoritmo linearmente convergente, que pode fazer o seu algoritmo A1 mais "precisos" para um determinado número de iterações ...
FrenchKheldar

Respostas:

9

Na prática sim. Enquanto é ainda grande, o coeficiente de taxa λ irá dominar o erro em vez da taxa de q. (Observe que essas são taxas assintóticas , portanto, as declarações às quais você vinculou são válidas apenas para o limite como k .)ekλk

Por exemplo, para métodos de primeira ordem na otimização, você costuma observar uma diminuição inicial rápida do erro, que é nivelada. Por outro lado, para o método de Newton, pode demorar um pouco até a convergência superlinear (ou quadrática) entrar em ação (é apenas localmente superlinearmente convergente, afinal). Por esse motivo, é comum começar com algumas etapas de gradiente antes de mudar para um método de Newton ou usar métodos de homotopia ou quase-Newton que se comportam como métodos de primeira ordem inicialmente e se transformam em um método de Newton à medida que você se aproxima do método alvo.

Christian Clason
fonte
11

ek+1λ1ekλ1<1ek+1λ2ek2λ2λ2e1<1- ou seja, que seu palpite inicial está próximo o suficiente. Esse é um comportamento comumente observado: que algoritmos quadraticamente convergentes precisam ser iniciados "suficientemente perto" da solução para convergir, enquanto algoritmos linearmente convergentes são tipicamente mais robustos. Essa é outra razão pela qual geralmente se inicia algumas etapas de um algoritmo de convergência linear (por exemplo, o método de descida mais íngreme) antes de mudar para métodos mais eficientes (por exemplo, o método de Newton).

Wolfgang Bangerth
fonte
6

A interpretação é qualitativamente correta.

Observe que a convergência linear e quadrática é em relação ao pior caso, a situação em um algoritmo específico pode ser melhor do que a obtida na análise de pior caso fornecida por Wolfgang Bangerth, embora a situação qualitativa geralmente corresponda a essa análise.

Em algoritmos concretos (por exemplo, em otimização), geralmente faz sentido iterar com um método barato, mas apenas linearmente convergente, até o progresso ficar lento, e depois terminar com um método convergente quadraticamente (ou pelo menos superlinearmente). Na prática, a convergência superlinear tende a ser tão boa quanto a convergência quadrática, apenas porque a parte inicial, lentamente convergente, tende a dominar o trabalho geral.

Arnold Neumaier
fonte