Estou tentando entender por que a função softmax é definida como tal:
Entendo como isso normaliza os dados e mapeia corretamente para algum intervalo (0, 1), mas a diferença entre as probabilidades de peso varia exponencialmente e não linearmente. Existe uma razão pela qual queremos esse comportamento?
Além disso, essa equação parece bastante arbitrária e acho que uma grande família de equações poderia satisfazer nossos requisitos. Eu não vi nenhuma derivação on-line, então estou assumindo que seja apenas uma definição. Por que não escolher outra definição que atenda aos mesmos requisitos?
probability
neural-networks
softmax
Dr.Knowitall
fonte
fonte
Respostas:
A distribuição categórica é a distribuição suposta mínima sobre o suporte de "um conjunto finito de resultados mutuamente exclusivos", dada a estatística suficiente de "qual resultado aconteceu". Em outras palavras, usar qualquer outra distribuição seria uma suposição adicional. Sem nenhum conhecimento prévio, você deve assumir uma distribuição categórica para esse suporte e estatística suficiente. É uma família exponencial. (Todas as distribuições suposições mínimas para um determinado suporte e estatística suficiente são famílias exponenciais.)
A maneira correta de combinar duas crenças com base em informações independentes é o produto pontual de densidades, certificando-se de não contar duas vezes as informações anteriores que estão nas duas crenças. Para uma família exponencial, essa combinação é a adição de parâmetros naturais.
Os parâmetros de expectativa são os valores esperados de que é o número de vezes que você observou o resultado . Essa é a parametrização correta para converter um conjunto de observações em uma distribuição de probabilidade máxima. Você simplesmente mede neste espaço. É isso que você deseja quando estiver modelando observações.xk xk k
A função logística multinomial é a conversão de parâmetros naturais em parâmetros de expectativa da distribuição categórica. Você pode derivar essa conversão como o gradiente do log-normalizador em relação aos parâmetros naturais.
Em resumo, a função logística multinomial cai de três suposições: um suporte, uma estatística suficiente e um modelo cuja crença é uma combinação de informações independentes.
fonte
Sei que este é um post tardio, mas sinto que ainda haveria algum valor em fornecer alguma justificativa para aqueles que por acaso desembarcarem aqui.
Você não está totalmente errado. É arbitrário até certo ponto, mas talvez arbitrário seja a palavra errada. É mais como uma escolha de design. Deixe-me explicar.
Acontece que o Softmax é na verdade a generalização da função Sigmoid, que é uma unidade de saída Bernoulli (saída 0 ou 1):
Mas de onde vem a função Sigmoide, você pode perguntar.
Bem, acontece que muitas distribuições de probabilidade diferentes, incluindo a distribuição de Bernoulli, Poisson, Gaussiana, etc, seguem algo chamado Modelo Linear Generalizado (GLM). Ou seja, eles podem ser expressos em termos de:
Não abordarei quais são todos esses parâmetros, mas você certamente pode pesquisar isso.
Observe o seguinte exemplo de como é uma distribuição de Bernoulli na família GLM:
Você pode ver que, neste caso,
Observe o que acontece quando resolvemos em termos de :ϕ η
Então, para obter , tomamos o sigmóide de . A opção de design aparece quando assumimos que , onde são seus pesos são seus dados, sendo que ambos assumimos ser . Ao fazer essa suposição, podemos ajustar para aproximar-se de .ϕ=P(y=1) η η=wTx w x ∈Rn w ϕ
Se você passasse pelo mesmo processo para uma distribuição Multinoulli, acabaria derivando a função softmax.
fonte