Que situações sabemos onde a descida do gradiente pode convergir (para um ponto crítico ou para um mínimo local / global) para funções não convexas?
Para o SGD em funções não convexas, um tipo de prova foi revisado aqui, http://www.cs.cornell.edu/courses/cs6787/2017fa/Lecture7.pdf
gradient-descent
gradient
sgd
non-convex
estudante de graduação
fonte
fonte
Respostas:
Veja o apêndice B1 em https://web.stanford.edu/~boyd/cvxbook/ .
A função e a restrição podem não ser convexas em um programa quadrático quadraticamente restrito e você ainda pode ver uma forte dualidade (é garantido se uma condição técnica conhecida como qualificador de restrição de Slater for mantida)
A forte dualidade em termos fracos significa que podemos resolver o problema de otimização. A partir do problema original chamado primal, você pode formular um problema alternativo denominado problema duplo. A solução do problema duplo fornece uma solução que, em certo sentido, é o "melhor limite inferior" para os problemas originais
Em muitos dos problemas de otimização que não são convexos, haverá uma lacuna entre as soluções primária e dupla, ou seja, o limite inferior pode estar muito abaixo do verdadeiro valor ótimo (até o infinito negativo). Em alguns casos especiais, o limite é apertado. Esses casos especiais são aqueles em que temos forte dualidade.
O algoritmo é uma TÉCNICA usada para chegar ao ponto ideal. A solução ideal e nossa capacidade de encontrá-la dependem da GEOMETRIA do problema (que é o que a dualidade tenta chegar). Em poucas palavras, a análise diz que, se a otimização configurada corretamente convergir para o mínimo.
Em geral, a descida do gradiente converge para um ponto estacionário. Este ponto pode ser um mínimo local / mínimo global / mínimo de sela. Em apenas alguns casos não convexos, podemos garantir o que converge para
fonte
Nesta resposta, explorarei dois artigos interessantes e relevantes que foram levantados nos comentários. Antes de fazer isso, tentarei formalizar o problema e lançar alguma luz sobre algumas das suposições e definições. Começo com um artigo de 2016 de Lee et al.
Buscamos minimizar uma função não-convexa que é delimitada abaixo. Exigimos que seja duas vezes diferenciável. Usamos um algoritmo de descida de gradiente da forma:f:Rd→R
.xxt + 1= xxt- α ∇ f( xxt)
Além disso, temos o seguinte requisito:
.∥ ∇ f( xx1) - ∇ f( xx2) ∥ ≤ ℓ ∥ xx1- xx2∥ ,para todos xx1, xx2
Ou seja, exigimos que nossa função seja -Lipschitz em sua primeira derivada. Em inglês, isso se traduz na ideia de que nosso gradiente não pode mudar muito rapidamente em qualquer lugar do domínio. Essa suposição garante que podemos escolher um tamanho de etapa para que nunca terminemos com etapas que divergem.ℓ
Lembre-se de que um ponto Diz-se que x é uma sela estrita se ∇ f ( xxx e λ min ( ∇ 2 f ( x∇ f( xx )=0 e λ máx ( ∇ 2 f ( xλmin( ∇2f( xx ) ) <0 . Se todos os autovalores do Hessiano tiverem o mesmo sinal, o ponto será mínimo (se positivo) ou máximo (negativo). Se houver 0 autovalores de 0, é considerado degenerado e não é uma sela estrita.λmax( ∇2f( xx ) ) >0
O artigo mostra que, com as suposições acima, juntamente com a suposição de que todos os pontos de sela da função são de sela estrita, a descida do gradiente é garantida para convergir ao mínimo.
A prova é bastante técnica, mas a intuição é a seguinte: defina um conjunto , onde xWs( xxs) = { xx : limkgk( xx ) = xxs} é um ponto de sela. Eu não gosto dessa notação. O que eles estão tentando chegar é queWé o conjunto de valores iniciais para o qual o gradiente mapag: R d → R d envia xxxs W g: Rd→ Rd a xxxk . Em termos mais claros, é o conjunto de inicializações aleatórias que acabarão convergindo para uma sela.xxs
O argumento deles baseia-se no teorema do coletor estável. Com as suposições acima e um grupo de matemática esotéricos Eles concluem que o conjunto de deve ser medida de zero, isto é, não há nenhuma probabilidade de inicializar aleatoriamente em um ponto que irá convergir para um ponto de sela. Como sabemos que a descida do gradiente em funções do tipo descrito nas suposições com tamanhos de degraus adequadamente pequenos chegará a um ponto crítico e agora sabemos (quase com certeza) que ele nunca cairá em uma sela, sabemos que converge para um minimizador.Ws
O segundo artigo, mais recente, de Reddi et al. Vou discutir em menos detalhes. Existem várias diferenças. Primeiro, eles não estão mais trabalhando em uma estrutura determinística, optando pela estrutura de aproximação estocástica mais praticamente relevante em uma soma finita (pense em Descida de gradiente estocástico). As principais diferenças são que o tamanho da etapa requer algum cuidado adicional e o gradiente se torna uma variável aleatória. Além disso, relaxam a suposição de que todas as selas são rígidas e procuram um ponto estacionário de segunda ordem. Isto é, um ponto tal que,∥ ∇ ( f) ∥ ≤ ϵ ,e ,λmin( ∇2f( xx ) ) ≥- ρ ϵ--√
Onde é a constante de Lipschitz para o Hessian. (Ou seja, além do requisito de que nosso gradiente não varie muito rapidamente, agora temos um requisito semelhante em nosso Hessian. Essencialmente, os autores estão procurando por um ponto que pareça um mínimo na primeira e na segunda derivada.r h o
O método pelo qual eles realizam isso é usar uma variante (escolha a sua favorita) de descida de gradiente estocástico na maioria das vezes. Mas onde quer que encontrem um ponto em que , eles usam ummétodo de segunda ordemadequadamente escolhidopara escapar da sela. Eles mostram que, incorporando essas informações de segunda ordem, conforme necessário, elas convergirão para um ponto estacionário de segunda ordem.λmin( ∇2f( xx ) ) ≤0
Tecnicamente, este é um método de gradiente de segunda ordem, que pode ou não se enquadrar nos algoritmos em que você estava interessado.
Esta é uma área de pesquisa muito ativa e deixei de fora muitas contribuições importantes (ex Ge et al. ). Eu também sou novo no tópico, então esta pergunta me proporcionou uma oportunidade de procurar. Fico feliz em continuar a discussão, se houver interesse.
*** Escolhido adequadamente significa aquele que é mostrado para convergir para um ponto estacionário de segunda ordem. Eles usam o método Newton regularizado cúbico de Nesterov e Polyak.
fonte
Tentarei responder à parte "quando a descida do gradiente convergir para um ponto crítico" da pergunta.
O artigo "Métodos de convergência de descida para problemas semi-algébricos e mansos: algoritmos proximais, divisão para frente e para trás e métodos Gauss-Seidel regularizados"
por Attouch, Bolte e Svaiter,
mostra que, se a função objetivo satisfaz a desigualdade de Kurdyka-Lojasiewicz (KL), GD e outros métodos de descida de fato convergem para um minimizador. Observe que a condição KL é extremamente geral, mas difícil de entender. Funções que satisfazem KL são dadas, por exemplo, por funções semi-algébricas (novamente, muito geral, mas não uma noção simples).
A semialgebricidade, por outro lado, é um pouco mais difícil. O campo que o estuda também é conhecido como geometria mansa . Eu acho que o nome manso captura muito bem a essência. As funções pertencentes a essa classe não podem ser arbitrariamente "selvagens".
fonte