Nos últimos anos, as Redes Neurais Convolucionais (CNNs) tornaram-se o estado da arte em reconhecimento de objetos em visão computacional. Normalmente, uma CNN consiste em várias camadas convolucionais, seguidas por duas camadas totalmente conectadas. Uma intuição por trás disso é que as camadas convolucionais aprendem uma melhor representação dos dados de entrada e as camadas totalmente conectadas aprendem a classificar essa representação com base em um conjunto de rótulos.
No entanto, antes que as CNNs começassem a dominar, as SVMs (Support Vector Machines) eram o estado da arte. Portanto, parece sensato dizer que um SVM ainda é um classificador mais forte do que uma rede neural totalmente conectada em duas camadas. Portanto, estou me perguntando por que CNNs de ponta tendem a usar as camadas totalmente conectadas para classificação, em vez de um SVM? Dessa maneira, você teria o melhor dos dois mundos: uma forte representação de recursos e um classificador forte, em vez de uma forte representação de recursos, mas apenas um classificador fraco ...
Alguma ideia?