Enquanto treinamos modelos em aprendizado de máquina, por que às vezes é vantajoso manter o tamanho do lote em uma potência de 2? Eu pensei que seria melhor usar um tamanho que seja o maior ajuste na sua memória GPU / RAM.
Esta resposta afirma que, para alguns pacotes, uma potência de 2 é melhor como um tamanho de lote. Alguém pode fornecer uma explicação detalhada / link para uma explicação detalhada para isso? Isso é verdade para todos os algoritmos de otimização (descida de gradiente, retropropagação etc.) ou apenas para alguns deles?
fonte