Nas redes neurais, por que usar métodos de gradiente em vez de outras metaheurísticas?

20

No treinamento de redes neurais profundas e rasas, por que os métodos de gradiente (por exemplo, descida de gradiente, Nesterov, Newton-Raphson) são comumente usados, em oposição a outras metaheurísticas?

Por metaheurísticas, refiro-me a métodos como recozimento simulado, otimização de colônias de formigas etc., que foram desenvolvidos para evitar o empate em mínimos locais.

Lior
fonte

Respostas:

13

Estendendo a resposta de @Dikran Marsupial ....

Anna Choromanska e seus colegas do grupo de Yan LeCunn na NYU abordam isso em seu artigo de 2014 da AISTATS "A superfície de perda de redes multicamadas" . Usando a teoria da matriz aleatória, juntamente com alguns experimentos, eles argumentam que:

  • Para redes de tamanho grande, a maioria dos mínimos locais é equivalente e produz um desempenho semelhante em um conjunto de testes.

  • A probabilidade de encontrar um mínimo local "ruim" (alto valor) é diferente de zero para redes de tamanho pequeno e diminui rapidamente com o tamanho das redes.

  • Lutar para encontrar o mínimo global no conjunto de treinamento (em oposição a um dos muitos bons locais) não é útil na prática e pode levar ao excesso de ajustes.

[Da página 2 do artigo]

Nesta visão, não há um grande motivo para implantar abordagens pesadas para encontrar o mínimo global. Seria melhor gastar tempo tentando novas topologias de rede, recursos, conjuntos de dados etc.

Dito isto, muitas pessoas pensaram em aumentar ou substituir o SGD. Para redes razoavelmente pequenas (pelos padrões contemporâneos), essas metahurísticas aprimoradas parecem fazer algo que Mavrovouniotis e Yang (2016) mostram que a otimização das colônias de formigas + o backprop supera o backprop não modificado em vários conjuntos de dados de referência (embora não muito). Rere el al. (2015) usam o recozimento simulado para treinar uma CNN e descobrir que ela inicialmente apresenta melhor desempenho no conjunto de validação. Após 10 épocas, no entanto, resta apenas uma diferença muito pequena (e não testada quanto à significância) no desempenho. A vantagem da convergência por época mais rápida também é compensada por uma quantidade dramaticamente maior de tempo de computação por época, portanto, essa não é uma vitória óbvia para o recozimento simulado.

É possível que essas heurísticas façam um melhor trabalho ao inicializar a rede e, uma vez apontada no caminho certo, qualquer otimizador o fará. Sutskever et al. (2013) do grupo de Geoff Hinton argumentam algo assim em seu artigo de 2013 da ICML .

Matt Krause
fonte
17

Mínimos locais não são realmente um problema tão grande com as redes neurais como é frequentemente sugerido. Alguns dos mínimos locais são devidos à simetria da rede (ou seja, você pode permutar os neurônios ocultos e deixar a funçãoda rede inalterada. Tudo o que é necessário é encontrar um bom mínimo local, e não o mínimo global. Como a otimização agressiva de um modelo muito flexível, como uma rede neural, provavelmente é uma receita para sobregravar os dados, portanto, usar, por exemplo, recozimento simulado para encontrar os mínimos globais do critério de treinamento provavelmente dará uma rede neural com pior generalização do que aquele treinado por descida de gradiente que termina em mínimos locais. Se esses métodos de otimização heurística forem usados, aconselho a inclusão de um termo de regularização para limitar a complexidade do modelo.

... ou alternativamente, use, por exemplo, um método de kernel ou um modelo de função de base radial, que provavelmente será menos problemático.

Dikran Marsupial
fonte