No wiki, a função softmax é definida como o normalizador-log-gradiente da distribuição de probabilidade categórica . Uma explicação parcial para o normalizador de log é encontrada aqui , mas o que significa o normalizador de gradiente de log ?
No wiki, a função softmax é definida como o normalizador-log-gradiente da distribuição de probabilidade categórica . Uma explicação parcial para o normalizador de log é encontrada aqui , mas o que significa o normalizador de gradiente de log ?
Usando a notação da página da wikipedia ( https://en.wikipedia.org/wiki/Exponential_family ), uma família exponencial é uma família de distribuições de probabilidade que possuem pmfs / pdfs que podem ser escritos como (observando que , pode ser vetor valorizado): onde são os parâmetros naturais, são estatísticas suficientes e é o normalizador de log (às vezes chamado de função de partição de log). O motivo é chamado de normalizador de log, pois pode ser verificado que, no caso contínuo, para que este seja um pdf válido, devemos ter x f θ ( x ) = h ( x ) exp [ η ( θ ) T t ( x ) - A ( θ ) ] η ( θ ) = η t ( x ) A ( θ ) A ( θ ) A ( θ) ) = log [ ∫ h ( x ) exp [
Agora, para ver a relação específica entre a função softmax e a distribuição categórica dimensional , teremos que usar uma parametrização específica da distribuição. Ou seja, seja tal que e e defina (deixando ). O pmf para esta distribuição é (deixando ser um vetor quente, ou seja, e para ): θ 1 , ⋯ , θ k - 1 0 < θ 1 , ⋯ , θ k - 1 ∑ k - 1 i = 1 θ i < 1 θ k = 1 - ∑ k - 1 i = 1 θ i θ = ( θ 1 , ⋯ , θ k ) x = ( xx i = 1 x j = 0 i ≠ j f θ ( x ) = k ∏ i = 1 θ x i i . h ( x ) = 1 η ( θ ) = ( log [ θ 1 / θ k ] , ⋯ , log [ θ k
Agora vamos escrever sugestivamente , para que possamos escrever . Então o normalizador de log se torna Tomando a derivada parcial em relação a , encontramos revelando que o gradiente do normalizador de log é realmente a função softmax: