Essencialmente, minha pergunta é que, nos Perceptrons multicamadas, os perceptrons são usados com uma função de ativação sigmóide. De modo que na regra de actualização y é calculado como
Como esse Perceptron "sigmóide" difere de uma regressão logística então?
Eu diria que um perceptron sigmóide de camada única é equivalente a uma regressão logística no sentido de que ambos usam na regra de atualização. Além disso, ambos retornam sinal( y =1 na previsão. No entanto, em perceptrons multicamadas, a função de ativação sigmóide é usada para retornar uma probabilidade, não um sinal ligado, em contraste com a regressão logística e um perceptron de camada única.
Eu acho que o uso do termo "Perceptron" pode ser um pouco ambíguo, então deixe-me fornecer alguns antecedentes com base no meu entendimento atual sobre perceptrons de camada única:
Regra de perceptron clássica
Primeiro, o perceptron clássico de F. Rosenblatt, onde temos uma função step:
para atualizar os pesos
Para que seja calculado como
Gradiente descendente
Usando a descida gradiente, otimizamos (minimizamos) a função de custo
onde temos números "reais", vejo isso basicamente análogo à regressão linear com a diferença de que nossa saída de classificação é limiar.
Aqui, damos um passo na direção negativa do gradiente quando atualizamos os pesos
Mas aqui temos vez de
Além disso, calculamos a soma dos erros quadráticos para uma passagem completa em todo o conjunto de dados de treinamento (no modo de aprendizado em lote), em contraste com a regra clássica do perceptron que atualiza os pesos à medida que novas amostras de treinamento chegam (descida analógica ao gradiente estocástico - online Aprendendo).
Função de ativação sigmóide
Agora, aqui está a minha pergunta:
Nos Perceptrons multicamadas, os perceptrons são usados com uma função de ativação sigmóide. Para que na regra de atualização seja calculada como
Como esse Perceptron "sigmóide" difere de uma regressão logística então?
Respostas:
Se você minimizar o erro médio quadrático, será diferente da regressão logística. A regressão logística é normalmente associada à perda de entropia cruzada; aqui está uma página de introdução da biblioteca scikit-learn .
(Presumo que perceptrons multicamadas sejam a mesma coisa que redes neurais.)
Se você usou a perda de entropia cruzada (com regularização) para uma rede neural de camada única, será o mesmo modelo (modelo log-linear) da regressão logística. Se você usar uma rede de várias camadas, ela poderá ser vista como regressão logística com funções de base não lineares paramétricas.
Os resultados da regressão logística e das redes neurais com função de ativação sigmóide podem ser interpretados como probabilidades. Como a perda de entropia cruzada é realmente a probabilidade logarítmica negativa definida através da distribuição de Bernoulli.
fonte
Como a descida do gradiente atualiza cada parâmetro de forma a reduzir o erro de saída, que deve ser uma função contínua de todos os parâmetros. A ativação baseada em limites não é diferenciável, e é por isso que a ativação sigmóide ou tanh é usada.
Aqui está um NN de camada única
Aqui está um link que explica isso em geral.
Edit: Talvez, eu não entendi o que você entende por perceptron. Se não me engano, o perceptron é uma soma ponderada de entradas. Se você alterar a retenção com a função logística, ela se transformará em regressão logística. NN multicamada com funções de ativação sigmóide (logística) são camadas em cascata compostas de regressões logísticas.
fonte
Intuitivamente, penso em um perceptron multicamada como computando uma transformação não linear em meus recursos de entrada e, em seguida, alimentando essas variáveis transformadas em uma regressão logística.
Não conheço você, mas em meus cursos e pesquisas de modelagem, tentei todos os tipos de transformações sensatas e estúpidas dos recursos de entrada para melhorar seu significado e a previsão geral do modelo. Combinando coisas, pegando toras, combinando duas em uma taxa, etc. Eu não tinha vergonha, mas tinha paciência limitada.
fonte