Por que diminuir a taxa de aprendizado do SGD causa um aumento maciço na precisão?

8

Em trabalhos como esse , muitas vezes vejo curvas de treinamento com esse tipo de forma:

Nesse caso, o SGD foi utilizado com um fator de 0,9 e a taxa de aprendizado diminuiu de 10 a cada 30 épocas.

Por que existe uma redução tão grande no erro quando a taxa de aprendizado é alterada?
Por que o erro de validação começa a aumentar após a queda inicial, enquanto o erro de treinamento continua diminuindo?
Os mesmos resultados podem ser obtidos aproximando a 2ª e a subsequente taxa de aprendizado? Ou seja, por que o atraso em fazer mais quedas?

optimization geometrikal
fonte

5

Com uma taxa de aprendizado mais alta, você dá passos maiores em direção à solução. No entanto, quando você estiver perto, poderá pular a solução e, na próxima etapa, pular sobre ela novamente, causando uma oscilação ao redor da solução. Agora, se você diminuir a taxa de aprendizado corretamente, interromperá a oscilação e continuará em direção à solução mais uma vez. Ou seja, até você começar a oscilar novamente. Lembre-se de que uma taxa de aprendizado maior pode ultrapassar mínimos locais menores e ajudá-lo a encontrar outros mínimos melhores, dos quais não pode ultrapassar. Além disso, geralmente é o erro de treinamento que se torna melhor e o erro de validação se torna pior à medida que você começa a se ajustar demais aos dados de treinamento.

Carl Rynegardh
fonte

2

Porque a menor taxa de aprendizado permite que o otimizador escape dos pontos de sela, o que acontece em cada penhasco, em vez de ultrapassar. O erro de validação oscilou ao se aproximar do segundo ponto de sela. O ruído dificulta afirmar que aumentou com significância estatística, mas, se o fizesse, poderia ser devido a um ajuste excessivo. Não conheço nenhum resultado que relacione a separação entre pontos de sela, portanto o atraso pode ser arbitrário. Em algum momento você chega ao fundo, é claro.

Emre
fonte

Desculpe, você quer dizer que um aprendizado maior permite escapar de pontos de sela? Também é sobre isso que @Carl na outra resposta fala?

HelloWorld

Não, menor. Mesmo assunto. Imagine que o coletor que conecta um mínimo local a outro é através de um buraco estreito. É improvável que você passe por isso se der grandes passos.

Emre

Por que diminuir a taxa de aprendizado do SGD causa um aumento maciço na precisão?

Respostas: