A aplicação da função softmax em um vetor produzirá "probabilidades" e valores entre e .
Mas também podemos dividir cada valor pela soma do vetor e isso produzirá probabilidades e valores entre e .
Eu li a resposta aqui, mas diz que a razão é porque é diferenciável, embora Ambas as funções sejam diferenciáveis.
Respostas:
A função que você propõe tem uma singularidade sempre que a soma dos elementos é zero.
Suponha que seu vetor seja . Este vetor tem uma soma de 0, portanto, a divisão não está definida. A função não é diferenciável aqui.[−1,13,23]
Além disso, se um ou mais dos elementos do vetor forem negativos, mas a soma for diferente de zero, seu resultado não será uma probabilidade.
Suponha que seu vetor seja . Isso tem uma soma de 1, portanto, a aplicação de sua função resulta em , que não é um vetor de probabilidade porque possui elementos negativos e elementos que excedem 1.[−1,0,2] [−1,0,2]
Tendo uma visão mais ampla, podemos motivar a forma específica da função softmax da perspectiva de estender a regressão logística binária para o caso de três ou mais resultados categóricos.
Fazer coisas como tomar valores absolutos ou quadrados, como sugerido nos comentários, significa que e têm a mesma probabilidade prevista; isso significa que o modelo não está identificado . Por outro lado, é monotônico e positivo para todo real ; portanto, o resultado do softmax é (1) um vetor de probabilidade e (2) o modelo logístico multinomial é identificado.−x x exp(x) x
fonte
Softmax tem dois componentes:
Transforme os componentes em e ^ x. Isso permite que a rede neural trabalhe com probabilidades logarítmicas, em vez de probabilidades comuns. Isso transforma a operação comum de multiplicar probabilidades em adição, o que é muito mais natural para a estrutura baseada em álgebra linear de redes neurais.
Normalize a soma deles para 1, pois essa é a probabilidade total de que precisamos.
Uma conseqüência importante disso é que o teorema de bayes é muito natural para essa rede, pois é apenas a multiplicação de probabilidades normalizadas pelo denominador.
O caso trivial de uma rede de camada única com ativação softmax é equivalente à regressão logística.
O caso especial do softmax de dois componentes é equivalente à ativação sigmóide, que é popular quando existem apenas duas classes. Na classificação de várias classes, o softmax é usado se as classes são mutuamente exclusivas e o sigmóide em componentes é usado se forem independentes.
fonte