Na literatura de aprendizado de máquina, para representar uma distribuição de probabilidade, a função softmax é frequentemente usada. Existe uma razão para isso? Por que outra função não é usada?
machine-learning
distributions
softmax
SHASHANK GUPTA
fonte
fonte
Softmax também é uma generalização da função sigmóide logística e, portanto, possui as propriedades do sigmóide, como facilidade de diferenciação e estar na faixa de 0-1. A saída de uma função sigmóide logística também está entre 0 e 1 e, portanto, naturalmente uma escolha adequada para representar probabilidade. Sua derivada também é exoressed em termos de sua própria produção. No entanto, se sua função tiver uma saída vetorial, você precisará usar a função Softmax para obter a distribuição de probabilidade sobre o vetor de saída. Existem algumas outras vantagens de usar o Softmax que a Indie AI mencionou, embora isso não tenha necessariamente nada a ver com a teoria da Aproximação Universal, uma vez que o Softmax não é uma função usada apenas para Redes Neurais.
Referências
fonte