Por que as redes neurais parecem ter um desempenho melhor com as restrições impostas em sua topologia?

29

Redes backprop totalmente conectadas (pelo menos camada a camada com mais de 2 camadas ocultas) são aprendizes universais. Infelizmente, muitas vezes demoram a aprender e tendem a se ajustar demais ou a ter generalizações desajeitadas.

Ao brincar com essas redes, observei que a remoção de algumas das bordas (para que seu peso seja zero e impossível de mudar) tende a fazer com que as redes aprendam mais rápido e generalizem melhor. Existe uma razão para isso? É apenas devido a uma diminuição na dimensionalidade do espaço de busca de pesos, ou existe uma razão mais sutil?

Além disso, a melhor generalização é um artefato dos problemas "naturais" que estou vendo?

Artem Kaznatcheev
fonte

Respostas:

9

Menos nós / arestas (ou arestas com pesos fixos) significa que há menos parâmetros cujos valores precisam ser encontrados, e isso normalmente reduz o tempo de aprendizado. Além disso, quando há menos parâmetros, o espaço que pode ser expresso pela rede neural possui menos dimensões, portanto, a rede neural pode expressar apenas modelos mais gerais. É, portanto, menos capaz de sobrescrever os dados e, portanto, os modelos parecerão mais gerais.

Dave Clarke
fonte
5

Ao remover as arestas, você reduziu o espaço de pesquisa para o algoritmo de treinamento, que terá um retorno imediato no desempenho do tempo. Você também introduziu restrições nas funções que a rede pode modelar. As restrições podem forçar seu modelo a encontrar uma solução mais geral, já que a mais precisa é inacessível. Uma técnica comum para o treinamento de redes neurais é o uso de uma técnica de descida gradiente. Outra conseqüência da remoção pode ser que você eliminou alguns mínimos locais no cenário de parâmetros que novamente permitem que o algoritmo de treinamento encontre uma solução melhor.

Não ficaria surpreso se sua melhor generalização estiver relacionada aos problemas que você está enfrentando. Eu tive sucesso com redes neurais, nas quais o modelo subjacente tem uma estrutura contínua, enquanto casos em que há descontinuidades, as coisas não funcionaram tão bem. Lembre-se também de que o desempenho da rede neural geralmente está intimamente relacionado à forma como você estrutura sua entrada e saída.

John Percival Hackworth
fonte