Estou realizando experimentos no conjunto de validação EMNIST usando redes com RMSProp, Adam e SGD. Estou atingindo uma precisão de 87% com SGD (taxa de aprendizado de 0,1) e desistência (prob de desistência de 0,1), bem como regularização de L2 (penalidade 1e-05). Ao testar a mesma configuração exata com o RMSProp e Adam, bem como a taxa de aprendizado inicial de 0,001, estou obtendo uma precisão de 85% e uma curva de treinamento significativamente menos suave. Não sei como explicar esse comportamento. Qual pode ser a razão por trás da falta de suavidade na curva de treinamento e a menor precisão e maiores taxas de erro alcançadas?
12
Respostas:
Após pesquisar alguns artigos on-line e a documentação do Keras, é sugerido que o otimizador RMSProp seja recomendado para redes neurais recorrentes. https://github.com/keras-team/keras/blob/master/keras/optimizers.py#L209
A descida estocástica de gradiente parece tirar proveito de sua taxa de aprendizado e momento entre cada lote para otimizar os pesos do modelo com base nas informações da função de perda no meu caso é 'categorical_crossentropy'.
Sugiro http://ruder.io/optimizing-gradient-descent/index.html para obter informações adicionais sobre algoritmos de otimização.
fonte