Por que CNNs concluem com camadas FC?

11

Pelo meu entendimento, as CNNs consistem em duas partes. A primeira parte (camadas conv / pool) que faz a extração do recurso e a segunda parte (camadas fc) que faz a classificação dos recursos.

Como as redes neurais totalmente conectadas não são os melhores classificadores (ou seja, elas são superadas por SVMs e RFs na maioria das vezes), por que as CNNs concluem com camadas FC, em vez de dizer um SVM ou RF?

Mary93
fonte

Respostas:

4

Não é tão simples. Antes de tudo, um SVM é, de certa forma, um tipo de rede neural (você pode aprender uma solução SVM por meio de retropropagação). Veja O que é uma Rede Neural Artificial? . Segundo, você não pode saber de antemão qual modelo funcionará melhor, mas o problema é que, com uma arquitetura totalmente neuromórfica, você pode aprender os pesos de ponta a ponta, enquanto anexa um SVM ou RF à última camada de ativação de uma CNN. simplesmente um procedimento ad hoc . Pode ter um desempenho melhor e, talvez não, não podemos saber sem testes.

A parte importante é que uma arquitetura totalmente convolucional é capaz de aprender representação, o que é útil por uma infinidade de razões. Pela primeira vez, isso pode reduzir ou eliminar completamente a engenharia de recursos no seu problema.

Sobre as camadas FC, elas são matematicamente equivalentes a camadas convolucionais 1x1. Veja o post de Yann Lecun , que transcrevo abaixo:

Nas redes convolucionais, não existem "camadas totalmente conectadas". Existem apenas camadas de convolução com kernels de convolução 1x1 e uma tabela de conexão completa.

É um fato raramente compreendido que ConvNets não precisam ter uma entrada de tamanho fixo. Você pode treiná-los em entradas que produzam um único vetor de saída (sem extensão espacial) e depois aplicá-las a imagens maiores. Em vez de um único vetor de saída, você obtém um mapa espacial dos vetores de saída. Cada vetor vê janelas de entrada em diferentes locais na entrada.

Nesse cenário, as "camadas totalmente conectadas" realmente atuam como convoluções 1x1.

Firebug
fonte
0

Se você conhecesse o Teorema do Almoço Não Gratuito (Wolpert & Macready), não ficaria tão desligado de um classificador e perguntaria por que não é o melhor. O Teorema da NFL afirma essencialmente que "no universo de todas as funções de custo, não existe um melhor classificador". Segundo, o desempenho do classificador sempre "depende dos dados".

O Teorema do Patinho Feio (Watanabe) afirma essencialmente que "no universo de todos os conjuntos de recursos, não existe um melhor conjunto de recursos".

O Teorema de Cover afirma que, se , ou seja, a dimensionalidade dos dados for maior que o tamanho da amostra, um problema de classificação binária será sempre linearmente separável.p>n

À luz do exposto, além do Occam's Razor , nunca há nada melhor do que qualquer outra coisa, independentemente da função de dados e custos.

Sempre argumentei que as CNNs por si só não são conjuntos de classificadores para os quais a diversidade (kappa vs erro) pode ser avaliada.

NXG Logic
fonte