NeuralNetwork de camada única com ativação ReLU igual a SVM?

Suponha que eu tenha uma rede neural simples de camada única, com n entradas e uma única saída (tarefa de classificação binária). Se eu definir a função de ativação no nó de saída como uma função sigmóide, o resultado será um classificador de Regressão Logística.

Nesse mesmo cenário, se eu alterar a ativação da saída para ReLU (unidade linear retificada), a estrutura resultante será igual ou semelhante a um SVM?

Se não, por quê?

neural-networks svm DE ANÚNCIOS
fonte

você tem alguma hipótese de por que esse poderia ser o caso? a razão pela qual um único perceptron = logístico é exatamente por causa da ativação - eles são essencialmente o mesmo modelo, matematicamente (embora talvez treinado de maneira diferente) - pesos lineares + um sigmóide aplicado à multiplicação da matriz. Os SVMs funcionam de maneira bem diferente - eles buscam a melhor linha para separar os dados - são mais geométricos que "pesados" / "matriciais". Para mim, não há nada sobre ReLUs que deva me fazer pensar = ah, eles são iguais a um SVM. (SVM logística e linear tendem a executar de forma muito semelhante embora)

metjush

o objetivo da margem máxima de um svm e a função de ativação relu têm a mesma aparência. Daí a questão.

"Os SVMs funcionam de maneira bastante diferente - eles buscam a melhor linha para separar os dados - são mais geométricos que" pesados "/" matrizes ". Isso é um pouco ondulado - TODOS os classificadores lineares buscam a melhor linha para separar os dados, incluindo regressão logística e perceptron.

Respostas:

Talvez o que faça você pensar em ReLU seja a perda de dobradiça dos SVMs, mas a perda não restringe a função de ativação de saída a não ser negativa (ReLU). $E = max(1-ty,0)$

Para que a perda de rede tenha a mesma forma que os SVMs, podemos remover todas as funções de ativação não linear da camada de saída e usar a perda de dobradiça para propagação posterior.

Além disso, se substituirmos a perda de dobradiça por (que parece uma versão suave da perda de dobradiça), faremos regressão logística como redes típicas sigmoides + entropia cruzada. Pode-se pensar em mover a função sigmóide da camada de saída para a perda. $E = ln (1 + exp(−ty))$

Portanto, em termos de funções de perda, os SVMs e a regressão logística são bem próximos, embora os SVMs usem um algoritmo muito diferente para treinamento e inferência com base em vetores de suporte.

Há uma boa discussão sobre a relação entre SVM e regressão logística na seção 7.1.2 do livro Reconhecimento de padrões e aprendizado de máquina .

dontloo
fonte

obrigado por apontar para o livro. Então, estou sentindo que, além das funções de ativação, a diferença real está nos algoritmos de otimização usados. Para LR, podemos usar uma descida simples e sem restrições de gradiente, enquanto no SVM normalmente resolvemos uma otimização restrita.