A função softmax, comumente usada em redes neurais para converter números reais em probabilidades, é a mesma função da distribuição de Boltzmann, a distribuição de probabilidade sobre energias para um conjunto de partículas em equilíbrio térmico a uma dada temperatura T na termodinâmica.
Eu posso ver algumas razões heurísticas claras pelas quais isso é prático:
- Não importa se os valores de entrada são negativos, o softmax gera valores positivos que somam um.
- É sempre diferenciável, o que é útil para retropropagação.
- Possui um parâmetro de 'temperatura' que controla a tolerância da rede em relação a valores pequenos (quando T é muito grande, todos os resultados são igualmente prováveis, quando muito pequenos, apenas o valor com a maior entrada é selecionado).
A função Boltzmann é usada apenas como softmax por razões práticas, ou existe uma conexão mais profunda com a termodinâmica / física estatística?
Respostas:
Que eu saiba, não há razão mais profunda, além do fato de que muitas das pessoas que levaram as RNAs além do estágio Perceptron eram físicas.
Além dos benefícios mencionados, essa opção em particular tem mais vantagens. Como mencionado, ele possui um único parâmetro que determina o comportamento da saída. Que por sua vez pode ser otimizado ou ajustado por si só.
Em suma, é uma função muito útil e conhecida que atinge um tipo de 'regularização', no sentido de que mesmo os maiores valores de entrada são restritos.
É claro que existem muitas outras funções possíveis que atendem aos mesmos requisitos, mas são menos conhecidas no mundo da física. E na maioria das vezes, eles são mais difíceis de usar.
fonte
a função softmax também é usada na modelagem de escolha discreta, é igual ao modelo logit, se você assumir que há uma função utilitária associada a cada classe, e a função utilidade é igual à saída da rede neural + um termo de erro após o Gumbel distribuição, a probabilidade de pertencer a uma classe é igual à função softmax com a rede neural como entrada. Veja: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf
existem alternativas para o modelo logit, como o modelo probit, em que se supõe que o termo de erro siga a distribuição normal padrão, o que é uma suposição melhor. no entanto, a probabilidade seria intratável e é computacionalmente dispendiosa para resolver, portanto, não é comumente usada em redes neurais
fonte