Por que o softmax é usado para representar uma distribuição de probabilidade?

10

Na literatura de aprendizado de máquina, para representar uma distribuição de probabilidade, a função softmax é frequentemente usada. Existe uma razão para isso? Por que outra função não é usada?

SHASHANK GUPTA
fonte

Respostas:

7

De uma perspectiva de otimização, ele possui algumas boas propriedades em termos de diferenciabilidade. Para muitos problemas de aprendizado de máquina, é um bom ajuste para a classificação 1-de-N.

De uma perspectiva de aprendizado profundo: também se pode argumentar que, em teoria, o uso de uma rede profunda com um classificador softmax no topo pode representar qualquer função de probabilidade de classe N no espaço de recursos, pois os MLPs possuem a propriedade Universal Approximation .

Indie AI
fonte
11
Portanto, a principal razão para a popularidade do Softmax é que suas propriedades de diferenciação são úteis na configuração de aprendizado com base em gradiente. É isso aí, né?
SHASHANK GUPTA
Sim, na minha opinião de qualquer maneira. Softmax é um simples com bons derivados e é atraente para o aprendizado baseado em gradiente. Concordo com tudo o que você disse.
AI independente de
Você pode pensar em softmax como uma função de probabilidade massa / densidade da função que você otimizará. Na minha opinião, o softmax é apenas uma maneira conveniente de modelar uma função de massa / densidade de probabilidade.
Charles Chow
3

Softmax também é uma generalização da função sigmóide logística e, portanto, possui as propriedades do sigmóide, como facilidade de diferenciação e estar na faixa de 0-1. A saída de uma função sigmóide logística também está entre 0 e 1 e, portanto, naturalmente uma escolha adequada para representar probabilidade. Sua derivada também é exoressed em termos de sua própria produção. No entanto, se sua função tiver uma saída vetorial, você precisará usar a função Softmax para obter a distribuição de probabilidade sobre o vetor de saída. Existem algumas outras vantagens de usar o Softmax que a Indie AI mencionou, embora isso não tenha necessariamente nada a ver com a teoria da Aproximação Universal, uma vez que o Softmax não é uma função usada apenas para Redes Neurais.

Referências

Amir
fonte