Ao implementar a descida gradiente de minilote para redes neurais, é importante levar elementos aleatórios em cada minilote? Ou é suficiente embaralhar os elementos no início do treinamento uma vez?
(Também estou interessado em fontes que definitivamente dizem o que fazem.)
fonte