As paradas e desistências precoces são suficientes para regular na prática a grande maioria das redes neurais profundas?

Existem tantas técnicas de regularização que não é prático experimentar todas as combinações:

l1 / l2
norma máxima
cair fora
parada antecipada
...

Parece que a maioria das pessoas está satisfeita com a combinação de abandono e parada precoce: há casos em que o uso de outras técnicas faz sentido?

Por exemplo, se você deseja um modelo esparso, pode adicionar um pouco de regularização l1. Fora isso, existem fortes argumentos a favor da aspersão em outras técnicas de regularização?

Conheço o teorema do almoço sem almoço, em teoria precisaria experimentar todas as combinações de técnicas de regularização, mas não vale a pena tentar se quase nunca produz um aumento significativo no desempenho.

neural-networks regularization dropout MiniQuark
fonte

Respostas:

Lembremos que o principal objetivo da regularização é reduzir o excesso de adaptação.

Que outras técnicas estão sendo usadas atualmente para reduzir o excesso de adaptação:

1) Compartilhamento de peso - como feito na CNN, aplicando os mesmos filtros na imagem.

2) Aumento de Dados - Aumentando os dados existentes e gerando dados sintéticos com modelos generativos

3) Grande quantidade de dados de treinamento - graças ao ImageNet etc.

4) Pré-treinamento - por exemplo, diga Use pesos aprendidos do ImageNet antes de treinar o classificador no conjunto de dados digamos Caltech.

5) O uso de RelU em redes neurais por si só incentiva a escarsidade, pois permite zero ativação. De fato, para regiões mais complexas no espaço de recursos, use mais RelUs, desative-as para regiões simples. Portanto, basicamente varia a complexidade do modelo com base na complexidade do problema.

O uso de várias dessas técnicas, além do abandono e da parada precoce, parece suficiente para os problemas que estão sendo resolvidos hoje. No entanto, para problemas novos com dados menores, você pode encontrar outras técnicas de regularização úteis.

Amitoz Dandiana
fonte

+1 Ótima resposta, obrigado. Parece que há uma linha embaçada que separa as técnicas de inicialização do peso (por exemplo, pré-treinamento) e regularização. Além disso, algumas técnicas podem ser úteis para várias coisas, incluindo a regularização: por exemplo, a norma de lote destina-se a corrigir o problema dos gradientes de fuga, mas também possui alguns recursos de regularização. Vou esperar por algumas outras respostas antes de aceitar uma.

MiniQuark 19/08/16