Por que as pessoas não usam RBFs mais profundos ou RBF em combinação com MLP?

12

Portanto, ao analisar as Redes Neurais com funções de base radial, notei que as pessoas só recomendam o uso de 1 camada oculta, enquanto nas redes neurais perceptron de múltiplas camadas, mais camadas são consideradas melhores.

Dado que as redes RBF podem ser treinadas com a versão de propagação reversa, existem razões pelas quais redes RBF mais profundas não funcionariam ou que uma camada RBF não poderia ser usada como penúltima ou primeira camada em uma rede MLP profunda? (Eu estava pensando na penúltima camada para que pudesse ser essencialmente treinada nos recursos aprendidos pelas camadas MLP anteriores)

user1646196
fonte
Não sou especialista em NN, mas minha impressão é que, com os NNs de feed-forward padrão, várias camadas ocultas normalmente não adicionam muito.
gung - Restabelece Monica
1
Isso foi nos dias anteriores da pesquisa da NN, mas agora mais camadas são normalmente a receita para um melhor desempenho (aprendizado profundo). Eu acho que a abordagem favorita atual é uma inicialização inteligente, o maior número possível de camadas, regularização via desistência e softmax em vez de ativações sigmoidais para evitar a saturação. (Mas posso estar errado nas técnicas). Eu acho que algumas pessoas também usam o aprofundamento iterativo para obter melhores resultados. Além disso, o Google obteve o estado da arte no imageNet em 2014 com uma rede de 100 camadas.
User1646196

Respostas:

4

O problema fundamental é que os RBFs são a) não lineares demais, b) não fazem redução de dimensão.

por causa de a) os RBFs sempre foram treinados por médias k em vez de descidas gradientes.

Eu diria que o principal sucesso nos Deep NNs são as redes de convecção, onde uma das partes principais é a redução de dimensão: embora trabalhe com digamos 128x128x3 = 50.000 entradas, cada neurônio tem um campo receptivo restrito e há muito menos neurônios em cada camada .Em uma determinada camada de um MLP, cada neurônio representa uma característica / dimensão), assim você reduz constantemente a dimensionalidade (passando de camada para camada).

Embora se possa adaptar a matriz de covariância da RBF e reduzir a dimensão, isso torna ainda mais difícil o treinamento.

seanv507
fonte
Recentemente, li um artigo que propunha um algoritmo de retropropagação para o treinamento de redes RBF. Dado isso, poderia ser um benefício ter uma RBF como camada final em uma rede profunda? Acho que desta forma o resto da rede profunda seria essencialmente detectar características que o RBF pode classificar
user1646196
talvez você deva vincular o artigo e as pessoas possam dar respostas mais informadas. Não vejo nenhum benefício ... dado que o RBF é muito não linear (e, por exemplo, os sigmóides foram substituídos por relu porque eram um gradiente de fuga não linear demais ...). O que as pessoas fazer é treinar com rede conv com MLP padrão no topo, em seguida, jogar fora MLP e uso svm
seanv507
O documento é "Treinamento de redes RBF com retropropagação seletiva", não tenho certeza se você pode lê-lo aqui ou se existe um paywall sciencedirect.com/science/article/pii/S0925231203005411 . Eu não sabia que os sigmóides foram substituídos por relu por causa da não linearidade, mas dado que posso ver como o aumento da não linearidade seria evitado. Vou marcar a resposta como aceite :)
user1646196