Dois pontos:
- O abandono também é geralmente comparado com conjuntos de redes neurais. Parece que tem alguns dos benefícios de desempenho do treinamento e a média de várias redes neurais.
- A desistência é mais fácil de calibrar do que a regularização. Existe apenas um hiperparâmetro que é a taxa de abandono escolar e as pessoas usam amplamente 0,5 durante o treinamento (e depois 1,0 na avaliação do curso :)); veja, por exemplo, este exemplo do TensorFlow .
De qualquer forma, sou um pouco cético em relação aos estudos empíricos das redes neurais. Há muitos hiperparâmetros para ajustar, da topologia da rede ao procedimento de otimização de descida de gradiente, às funções de ativação e o que você estiver testando como regularização. Então, a coisa toda é estocástica e, geralmente, os ganhos de desempenho são tão pequenos que você dificilmente pode testar as estatísticas. Muitos autores nem se dão ao trabalho de realizar testes estatísticos. Eles apenas validam cruzadamente a média e declaram que qualquer modelo que tenha o maior ganho de ponto decimal é o vencedor.
Você pode encontrar um estudo que promove o abandono apenas para ser contradito por outra regularização da promoção.
Eu acho que tudo se resume a preferências estéticas. O abandono do IMHO parece mais plausível do que a regularização. Também parece mais fácil calibrar. Então, eu pessoalmente prefiro quando usar uma estrutura como o TensorFlow. Se precisarmos usar nossa própria rede neural, o que costumamos fazer, usaremos a regularização porque foi mais fácil de implementar.