Atualmente, estou trabalhando na implementação da descida estocástica de gradiente SGD, para redes neurais usando propagação traseira, e enquanto eu entendo seu objetivo, tenho algumas perguntas sobre como escolher valores para a taxa de aprendizado. A taxa de aprendizado está relacionada à forma...