Perguntas com a marcação «mini-batch-gradient-descent»

Janela deslizante leva a sobreajuste no LSTM?

Superajustei meu LSTM se eu treiná-lo através da janela deslizante? Por que as pessoas parecem não usá-lo para LSTMs? Para um exemplo simplificado, suponha que tenhamos de prever a sequência de caracteres: A B C D E F G H I J K L M N O P Q R S T U V W X Y Z É ruim (ou melhor?) Se eu continuar...

lstm backpropagation mini-batch-gradient-descent