A redução de peso especifica a regularização na rede neural.
Durante o treinamento, um termo de regularização é adicionado à perda da rede para calcular o gradiente de retropropagação. O weight decay
valor determina o quão dominante esse termo de regularização será no cálculo do gradiente.
Como regra geral, quanto mais exemplos de treinamento você tiver, mais fraco esse termo deve ser. Quanto mais parâmetros você tiver, maior será esse termo.
Portanto, a redução de peso é um termo de regularização que penaliza grandes pesos. Quando o coeficiente de redução de peso é grande, a penalidade para grandes pesos também é grande, quando pequenos pesos podem crescer livremente.
Então, agora, se você voltar a ler a resposta que você vinculou na sua pergunta, faria sentido agora.