Não há necessidade de dimensões específicas de pixel para que as redes neurais convolucionais funcionem normalmente. É provável que os valores tenham sido escolhidos por motivos pragmáticos - como um comprometimento entre o uso de detalhes da imagem versus número de parâmetros e o tamanho do conjunto de treinamento necessário.
Além disso, se os dados de origem tiverem uma variedade de proporções diferentes, alguns retratos, algumas paisagens, com o objeto de destino geralmente no centro, então fazer um corte quadrado do meio pode ser um compromisso razoável.
Ao aumentar o tamanho da imagem de entrada, você também aumentará a quantidade de ruído e variação com a qual a rede precisará lidar para processar essa entrada. Isso pode significar mais camadas - tanto convolucionais quanto combinadas. Também pode significar que você precisa de mais exemplos de treinamento e, é claro, cada exemplo de treinamento será maior. Juntos, eles aumentam os recursos de computação necessários para concluir o treinamento. No entanto, se você puder superar esse requisito, é possível que você acabe com um modelo mais preciso, para qualquer tarefa em que os pixels extras possam fazer a diferença.
Uma regra possível para se você deseja uma resolução mais alta é se, para o objetivo da sua rede, um especialista humano pode usar a resolução extra e ter um desempenho melhor na tarefa. Esse pode ser o caso em sistemas de regressão, nos quais a rede está derivando algumas quantidades numéricas da imagem - por exemplo, para reconhecimento de face, extração biométrica, como distância entre as características faciais. Também pode ser desejável para tarefas de processamento de imagens, como mascaramento automatizado - os resultados mais avançados para essas tarefas ainda podem ter resolução menor do que as imagens comerciais nas quais gostaríamos de aplicá-las na prática.