Como é derivada a unidade softmax e qual é a implicação?

8

Estou tentando entender por que a função softmax é definida como tal:

ezjΣk=1Kezk=σ(z)

Entendo como isso normaliza os dados e mapeia corretamente para algum intervalo (0, 1), mas a diferença entre as probabilidades de peso varia exponencialmente e não linearmente. Existe uma razão pela qual queremos esse comportamento?

Além disso, essa equação parece bastante arbitrária e acho que uma grande família de equações poderia satisfazer nossos requisitos. Eu não vi nenhuma derivação on-line, então estou assumindo que seja apenas uma definição. Por que não escolher outra definição que atenda aos mesmos requisitos?

Dr.Knowitall
fonte
2
Você pode querer regressão logística Google e regressão multinomial
seanv507
Além disso, pesquise neste site!
Kjetil b halvorsen

Respostas:

5

A distribuição categórica é a distribuição suposta mínima sobre o suporte de "um conjunto finito de resultados mutuamente exclusivos", dada a estatística suficiente de "qual resultado aconteceu". Em outras palavras, usar qualquer outra distribuição seria uma suposição adicional. Sem nenhum conhecimento prévio, você deve assumir uma distribuição categórica para esse suporte e estatística suficiente. É uma família exponencial. (Todas as distribuições suposições mínimas para um determinado suporte e estatística suficiente são famílias exponenciais.)

A maneira correta de combinar duas crenças com base em informações independentes é o produto pontual de densidades, certificando-se de não contar duas vezes as informações anteriores que estão nas duas crenças. Para uma família exponencial, essa combinação é a adição de parâmetros naturais.

Os parâmetros de expectativa são os valores esperados de que é o número de vezes que você observou o resultado . Essa é a parametrização correta para converter um conjunto de observações em uma distribuição de probabilidade máxima. Você simplesmente mede neste espaço. É isso que você deseja quando estiver modelando observações.xkxkk

A função logística multinomial é a conversão de parâmetros naturais em parâmetros de expectativa da distribuição categórica. Você pode derivar essa conversão como o gradiente do log-normalizador em relação aos parâmetros naturais.

Em resumo, a função logística multinomial cai de três suposições: um suporte, uma estatística suficiente e um modelo cuja crença é uma combinação de informações independentes.

Neil G
fonte
2

Sei que este é um post tardio, mas sinto que ainda haveria algum valor em fornecer alguma justificativa para aqueles que por acaso desembarcarem aqui.

Você não está totalmente errado. É arbitrário até certo ponto, mas talvez arbitrário seja a palavra errada. É mais como uma escolha de design. Deixe-me explicar.

Acontece que o Softmax é na verdade a generalização da função Sigmoid, que é uma unidade de saída Bernoulli (saída 0 ou 1):

[1+exp(z)]1

Mas de onde vem a função Sigmoide, você pode perguntar.

Bem, acontece que muitas distribuições de probabilidade diferentes, incluindo a distribuição de Bernoulli, Poisson, Gaussiana, etc, seguem algo chamado Modelo Linear Generalizado (GLM). Ou seja, eles podem ser expressos em termos de:

P(y;η)=b(y)exp[ηTT(y)a(η)]

Não abordarei quais são todos esses parâmetros, mas você certamente pode pesquisar isso.

Observe o seguinte exemplo de como é uma distribuição de Bernoulli na família GLM:

P(y=1)=ϕP(y=0)=1ϕP(y)=ϕy(1ϕ)1y=exp(ylog(ϕ)+(1y)log(1ϕ))=exp(ylog(ϕ)+log(1ϕ)ylog(1ϕ))=exp(ylog(ϕ1ϕ)+log(1ϕ))

Você pode ver que, neste caso,

b(y)=1T(y)=yη=log(ϕ1ϕ)a(η)=log(1ϕ)

Observe o que acontece quando resolvemos em termos de :ϕη

η=log(ϕ1ϕ)eη=ϕ1ϕeη=1ϕϕ=1ϕ1eη+1=1ϕϕ=[exp(η)+1]1

Então, para obter , tomamos o sigmóide de . A opção de design aparece quando assumimos que , onde são seus pesos são seus dados, sendo que ambos assumimos ser . Ao fazer essa suposição, podemos ajustar para aproximar-se de .ϕ=P(y=1)ηη=wTxwxRnwϕ

Se você passasse pelo mesmo processo para uma distribuição Multinoulli, acabaria derivando a função softmax.

samuel schreiber
fonte