Existem estudos que examinam a evasão versus outras regularizações?

9

Existem trabalhos publicados que mostram diferenças nos métodos de regularização de redes neurais, preferencialmente em domínios diferentes (ou pelo menos diferentes conjuntos de dados)?

Estou perguntando, porque atualmente tenho a sensação de que a maioria das pessoas parece usar apenas o abandono para regularizar a visão computacional. Gostaria de verificar se haveria uma razão (não) para usar diferentes formas de regularização.

Martin Thoma
fonte

Respostas:

3

Dois pontos:

  1. O abandono também é geralmente comparado com conjuntos de redes neurais. Parece que tem alguns dos benefícios de desempenho do treinamento e a média de várias redes neurais.
  2. A desistência é mais fácil de calibrar do que a regularização. Existe apenas um hiperparâmetro que é a taxa de abandono escolar e as pessoas usam amplamente 0,5 durante o treinamento (e depois 1,0 na avaliação do curso :)); veja, por exemplo, este exemplo do TensorFlow .

De qualquer forma, sou um pouco cético em relação aos estudos empíricos das redes neurais. Há muitos hiperparâmetros para ajustar, da topologia da rede ao procedimento de otimização de descida de gradiente, às funções de ativação e o que você estiver testando como regularização. Então, a coisa toda é estocástica e, geralmente, os ganhos de desempenho são tão pequenos que você dificilmente pode testar as estatísticas. Muitos autores nem se dão ao trabalho de realizar testes estatísticos. Eles apenas validam cruzadamente a média e declaram que qualquer modelo que tenha o maior ganho de ponto decimal é o vencedor.

Você pode encontrar um estudo que promove o abandono apenas para ser contradito por outra regularização da promoção.

Eu acho que tudo se resume a preferências estéticas. O abandono do IMHO parece mais plausível do que a regularização. Também parece mais fácil calibrar. Então, eu pessoalmente prefiro quando usar uma estrutura como o TensorFlow. Se precisarmos usar nossa própria rede neural, o que costumamos fazer, usaremos a regularização porque foi mais fácil de implementar.

Ricardo Cruz
fonte
0

Definitivamente. O artigo do próprio Criador, Geoffrey Hinton. https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf leia-o. Mas eu encorajo você a ver a diferença implementando-a.

Amanuel Negash
fonte
2
O artigo não compara explicitamente entre diferentes abordagens de regularização, exceto demonstrando o abandono como uma melhoria nos resultados mais avançados da época (os resultados anteriores provavelmente usaram outras formas de regularização, mas não estão listados). Ele também menciona as restrições de peso máximas como um regularizador adicional eficaz para aumentar o abandono.
Neil Slater