Perguntas com a marcação «sgd»

14
Como ele pode ser preso em um ponto de sela?

Atualmente, estou um pouco confuso com a forma como a descida do gradiente de mini-lote pode ser presa em um ponto de sela. A solução pode ser muito trivial que eu não entendo. Você começa uma amostra nova todas as épocas, e calcula um novo erro com base em um novo lote, para a função de custo é...

12
RMSProp e Adam vs SGD

Estou realizando experimentos no conjunto de validação EMNIST usando redes com RMSProp, Adam e SGD. Estou atingindo uma precisão de 87% com SGD (taxa de aprendizado de 0,1) e desistência (prob de desistência de 0,1), bem como regularização de L2 (penalidade 1e-05). Ao testar a mesma configuração...