Em um post recente de Rong Ge, foi dito que:
Acredita-se que, para muitos problemas, incluindo a aprendizagem de redes profundas, quase todos os mínimos locais tenham um valor de função muito semelhante ao ideal global e, portanto, encontrar um mínimo local é bom o suficiente.
De onde vem essa crença?
Respostas:
Um artigo recente As superfícies de perda de redes multicamadas oferece algumas explicações possíveis para isso. Do resumo (negrito é meu):
Muitas pessoas influentes na aprendizagem profunda (Yann LeCunn e Yoshua Bengio, para citar alguns) e alguns pesquisadores que vêm mais do ponto de vista matemático (Rong Ge e outros colaboradores da Sanjeev Arora) têm discutido e explorado essas idéias.
No artigo acima mencionado, veja a Figura 3, que mostra um fenômeno de faixas / concentração dos valores mínimos locais, pois as redes têm mais unidades ocultas. A faixa / concentração representa alguma evidência empírica de que, para modelos mais profundos ou maiores, um mínimo local é "bom o suficiente", pois seus valores de perda são aproximadamente semelhantes. E o mais importante, eles têm uma perda que é mais próxima do mínimo global à medida que o modelo se torna mais complexo (neste caso, mais amplo, mas na prática, mais profundo).
Além disso, eles usam um modelo de spin-glass, que até afirmam ser apenas um modelo e não necessariamente indicativo da imagem verdadeira, para mostrar que alcançar o minimizador global a partir de mínimos locais pode demorar exponencialmente:
A pesquisa da Rong Ge está centrada na quebra de pontos de sela. Yoshua Bengio e seus colaboradores apresentaram uma hipótese bastante ousada de Saddle Point:
fonte aqui: Identificando e atacando o problema do ponto de sela na otimização não-convexa de alta dimensão.
Até certo ponto, as duas abordagens acima não são exatamente as mesmas (a hipótese do ponto de sela pode questionar o que é realmente um mínimo local e o que é apenas um ponto de sela mal condicionado com uma região de platô muito longa?). A idéia por trás da hipótese do ponto de sela é que é possível projetar métodos de otimização para romper os pontos de sela, por exemplo, Newton sem sela do artigo Bengio, para acelerar potencialmente a convergência e talvez até atingir o melhor global. O primeiro artigo da Multilayer Loss Surface não está realmente preocupado em atingir o ideal global e realmente acredita que ele tem algumas propriedades de sobreposição inadequadas. Curiosamente, ambos os artigos usam idéias da física estatística e dos modelos de vidro giratório.
Mas eles estão meio que relacionados, pois os dois artigos acreditam que, para alcançar o minimizador global, é preciso superar o desafio de otimização dos pontos de sela. O primeiro artigo apenas acredita que os mínimos locais são bons o suficiente.
É justo questionar se métodos de momento e outros novos algoritmos de otimização, que podem estimar algumas propriedades de curvatura de 2ª ordem, podem escapar dos pontos de sela. Uma famosa animação de Alec Radford aqui .
Para responder à sua pergunta: "de onde vem essa crença?" Eu pessoalmente acho que é possível usar diferentes sementes aleatórias para aprender pesos diferentes, mas as redes correspondentes têm desempenho quantitativo semelhante. Por exemplo, se você definir duas sementes aleatórias diferentes para a inicialização do peso Glorot, provavelmente aprenderá pesos diferentes, mas se treinar usando métodos de otimização semelhantes, as redes terão desempenho semelhante. Uma crença comum do folclore é que o cenário de otimização é semelhante ao de uma caixa de ovos, outro bom post sobre isso aqui: Não há mais mínimos locais? com a analogia da caixa de ovos.
Edit: Eu só queria deixar claro que a analogia da caixa de ovos não é verdadeira, caso contrário não haveria necessidade de impulso ou outras técnicas de otimização mais avançadas. Porém, sabe-se que o SGD não funciona tão bem quanto o SGD + Momentum ou algoritmos de otimização mais modernos, talvez devido à existência de pontos de sela.
fonte