Estou tentando entender o significado matemático dos modelos de classificação não linear:
Acabei de ler um artigo falando sobre redes neurais sendo um modelo de classificação não linear.
Mas eu apenas percebo que:
A primeira camada:
A camada subsequente
Pode ser simplificado para
Uma rede neural de duas camadas É apenas uma regressão linear simples
Isso pode ser mostrado para qualquer número de camadas, pois a combinação linear de qualquer número de pesos é novamente linear.
O que realmente torna uma rede neural um modelo de classificação não linear?
Como a função de ativação afetará a não linearidade do modelo?
Você pode me explicar?
fonte
Você está certo de que várias camadas lineares podem ser equivalentes a uma única camada linear. Como as outras respostas disseram, uma função de ativação não linear permite a classificação não linear. Dizer que um classificador é não linear significa que ele tem um limite de decisão não linear. O limite de decisão é uma superfície que separa as classes; o classificador preverá uma classe para todos os pontos em um lado do limite de decisão e outra classe para todos os pontos no outro lado.
Eu disse anteriormente que o limite de decisão não é linear, mas um hiperplano é a própria definição de um limite linear. Mas, estamos considerando o limite como uma função das unidades ocultas imediatamente antes da saída. As ativações da unidade oculta são uma função não linear das entradas originais, devido às camadas ocultas anteriores e suas funções de ativação não linear. Uma maneira de pensar sobre a rede é que ela mapeia os dados de maneira não linear em algum espaço de recurso. As coordenadas neste espaço são dadas pelas ativações das últimas unidades ocultas. A rede então executa a classificação linear neste espaço (regressão logística, neste caso). Também podemos pensar no limite de decisão em função das entradas originais. Esta função será não linear, como conseqüência do mapeamento não linear de entradas para ativações de unidades ocultas.
Este post do blog mostra algumas figuras e animações interessantes desse processo.
fonte
A não linearidade vem da função de ativação sigmóide, 1 / (1 + e ^ x), onde x é a combinação linear de preditores e pesos que você referenciou na sua pergunta.
A propósito, os limites dessa ativação são zero e um porque o denominador fica tão grande que a fração se aproxima de zero ou e ^ x se torna tão pequeno que a fração se aproxima de 1/1.
fonte