Motivado por esta resposta principal à pergunta: Por que a convexidade é mais importante que a quase convexidade na otimização? , Agora espero entender por que os problemas convexos são fáceis de otimizar (ou pelo menos mais fáceis que os problemas quaseiconvexos ).
Quais são alguns dos algoritmos mais eficientes para otimização convexa e por que eles não podem ser usados efetivamente em problemas quaseiconvexos ?
optimization
convex-optimization
Amelio Vazquez-Reina
fonte
fonte
Respostas:
A maioria dos melhores métodos modernos para otimização em larga escala envolve fazer uma aproximação quadrática local à função objetivo, movendo-se para o ponto crítico dessa aproximação e depois repetindo. Isso inclui o método de Newton, L-BFGS e assim por diante.
Uma função só pode ser aproximada localmente por um quadrático com um mínimo se o hessiano no ponto atual for definido positivamente. Se o hessiano for indefinido, então
A aproximação quadrática local é uma boa aproximação local à função objetivo e, portanto, é uma superfície de sela. Em seguida, o uso dessa aproximação quadrática sugeriria avançar para um ponto de sela, que provavelmente estará na direção errada, ou
A aproximação quadrática local é forçada a ter um mínimo de construção; nesse caso, é provável que seja uma aproximação ruim à função objetivo original.
(O mesmo tipo de problema surge se o hessiano é definido com negatividade; nesse caso, localmente, parece uma tigela de cabeça para baixo)
Portanto, esses métodos funcionarão melhor se o Hessian for definido positivamente em todos os lugares, o que equivale à convexidade para funções suaves.
É claro que todos os bons métodos modernos têm salvaguardas para garantir a convergência ao se deslocar por regiões onde o Hessian é indefinido - por exemplo, pesquisa de linha, regiões de confiança, interromper uma resolução linear quando uma direção de curvatura negativa é encontrada etc. nessas regiões indefinidas, a convergência é geralmente muito mais lenta, pois as informações completas da curvatura sobre a função objetivo não podem ser usadas.
fonte
Você pode tentar aplicar um algoritmo de otimização convexo a um problema de otimização não convexo, e pode até convergir para um mínimo local, mas com apenas informações locais sobre a função, você nunca poderá concluir que realmente encontrou o mínimo global. A propriedade teórica mais importante dos problemas de otimização convexa é que qualquer mínimo local (de fato, qualquer ponto estacionário) também é um mínimo global.
Os algoritmos para otimização global de problemas não convexos devem ter algum tipo de informação global (por exemplo, continuidade da função de Lipschitz) para provar que uma solução é um mínimo global.
Para responder à sua pergunta específica sobre por que um algoritmo de otimização convexo pode falhar em um problema quase-convexo, suponha que seu algoritmo de otimização convexo seja iniciado em um "ponto plano" no gráfico da função objetivo. Não há informações locais no gradiente para indicar aonde ir. Para um problema convexo, você pode simplesmente parar, sabendo que já estava em um ponto mínimo local (e, portanto, global).
fonte