Descida de gradiente em funções não convexas
Que situações sabemos onde a descida do gradiente pode convergir (para um ponto crítico ou para um mínimo local / global) para funções não convexas? Para o SGD em funções não convexas, um tipo de prova foi revisado aqui, http://www.cs.cornell.edu/courses/cs6787/2017fa/Lecture7.pdf...