Por que os problemas convexos são fáceis de otimizar?

8

Motivado por esta resposta principal à pergunta: Por que a convexidade é mais importante que a quase convexidade na otimização? , Agora espero entender por que os problemas convexos são fáceis de otimizar (ou pelo menos mais fáceis que os problemas quaseiconvexos ).

Quais são alguns dos algoritmos mais eficientes para otimização convexa e por que eles não podem ser usados ​​efetivamente em problemas quaseiconvexos ?

Amelio Vazquez-Reina
fonte
1
Uma propriedade extremamente boa é que, se você desenhar uma linha / plano / hiperplano tangente ao gráfico de uma função convexa, o gráfico inteiro estará em um lado da linha, o que não funcionará para funções quaseiconvexas.
Kirill

Respostas:

5

A maioria dos melhores métodos modernos para otimização em larga escala envolve fazer uma aproximação quadrática local à função objetivo, movendo-se para o ponto crítico dessa aproximação e depois repetindo. Isso inclui o método de Newton, L-BFGS e assim por diante.

Uma função só pode ser aproximada localmente por um quadrático com um mínimo se o hessiano no ponto atual for definido positivamente. Se o hessiano for indefinido, então

  1. A aproximação quadrática local é uma boa aproximação local à função objetivo e, portanto, é uma superfície de sela. Em seguida, o uso dessa aproximação quadrática sugeriria avançar para um ponto de sela, que provavelmente estará na direção errada, ou

  2. A aproximação quadrática local é forçada a ter um mínimo de construção; nesse caso, é provável que seja uma aproximação ruim à função objetivo original.

(O mesmo tipo de problema surge se o hessiano é definido com negatividade; nesse caso, localmente, parece uma tigela de cabeça para baixo)

Portanto, esses métodos funcionarão melhor se o Hessian for definido positivamente em todos os lugares, o que equivale à convexidade para funções suaves.


É claro que todos os bons métodos modernos têm salvaguardas para garantir a convergência ao se deslocar por regiões onde o Hessian é indefinido - por exemplo, pesquisa de linha, regiões de confiança, interromper uma resolução linear quando uma direção de curvatura negativa é encontrada etc. nessas regiões indefinidas, a convergência é geralmente muito mais lenta, pois as informações completas da curvatura sobre a função objetivo não podem ser usadas.

Nick Alger
fonte
1
Discordo. As regiões de confiança podem lidar com quadráticos indefinidos. Mesmo os métodos de pesquisa de linhas podem encontrar e fazer pesquisas de linhas em direções de curvatura negativa. Por outro lado, se seu algoritmo estiver nu, sem região de confiança ou pesquisa de linha adequada para protegê-lo, você estará com problemas. Mas você também pode ter problemas com essa imprudência, mesmo com uma função estritamente convexa.
Mark L. Stone
3
@ MarkL.Stone É claro que isso é verdade e eu debati mencioná-lo ao escrever o post. No entanto, o ponto é que, sim, você pode fazer o método convergir fazendo um tratamento especial (como todos os bons códigos modernos), mas a convergência é consideravelmente mais lenta. Por exemplo, um método de região confiável é equivalente a descida de gradiente se a região confiável for pequena.
Nick Alger
7

Você pode tentar aplicar um algoritmo de otimização convexo a um problema de otimização não convexo, e pode até convergir para um mínimo local, mas com apenas informações locais sobre a função, você nunca poderá concluir que realmente encontrou o mínimo global. A propriedade teórica mais importante dos problemas de otimização convexa é que qualquer mínimo local (de fato, qualquer ponto estacionário) também é um mínimo global.

Os algoritmos para otimização global de problemas não convexos devem ter algum tipo de informação global (por exemplo, continuidade da função de Lipschitz) para provar que uma solução é um mínimo global.

Para responder à sua pergunta específica sobre por que um algoritmo de otimização convexo pode falhar em um problema quase-convexo, suponha que seu algoritmo de otimização convexo seja iniciado em um "ponto plano" no gráfico da função objetivo. Não há informações locais no gradiente para indicar aonde ir. Para um problema convexo, você pode simplesmente parar, sabendo que já estava em um ponto mínimo local (e, portanto, global).

Brian Borchers
fonte
Eu não acho que isso responda à pergunta sobre convexidade versus quaseiconvexidade. Se o problema é apenas evitar gradientes planos, pode-se supor que métodos convexos eficientes funcionam igualmente bem para funções estritamente quase -iconvexas , o que não acho que seja o caso.
Amelio Vazquez-Reina
y=x3x=0x=0
1
Existe um teorema padrão que diz que, se um método de descida for usado com uma pesquisa de linha que satisfaça as condições de Armijo, você obterá a convergência global a um mínimo local. (Deixei de fora algumas hipóteses técnicas aqui.) Portanto, sim, você pode obter a convergência global ao mínimo para sua classe de funções quase-convexas sem pontos críticos não ideais. Veja, por exemplo, o Teorema 3.2 na segunda edição do texto de Nocedal e Wright.
Brian Borchers
1
Com relação a "tão fácil de otimizar", você precisa ir além da questão da convergência global para um minimizador e considerar as taxas de convergência. A análise de muitos métodos para otimização convexa (por exemplo, convergência quadrática do método de Newton ou a convergência rápida de alguns métodos recentes de primeira ordem acelerados para otimização convexa) depende da convexidade, portanto esses métodos podem falhar em sua classe de funções quaseiconvexas. Por exemplo, uma função quaseiconvexa pode ter um ponto crítico único, mas tem pontos em que o Hessiano é singular e isso pode quebrar o método de Newton.
Brian Borchers
2
Lembre-se também de que é comum as pessoas que falam de problemas de otimização convexa como sendo "fáceis de resolver", geralmente estão falando de algumas classes de problemas de otimização convexa (LP, QP convexa, SOCP, SDP etc.) para os quais o polinômio Existem algoritmos de tempo e que podem ser resolvidos facilmente na prática. Problemas mais gerais de otimização convexa podem ser muito mais difíceis de resolver na prática.
precisa