Comecei a estudar sobre estatísticas e modelos. Atualmente, meu entendimento é que usamos o MLE para estimar os melhores parâmetros para um modelo. No entanto, quando tento entender como as redes neurais funcionam, parece que elas geralmente usam outra abordagem para estimar os parâmetros. Por que não usamos o MLE ou é possível usá-lo?
Em problemas de classificação, maximizar a probabilidade é a maneira mais comum de treinar uma rede neural (modelos supervisionados e não supervisionados).
Na prática, geralmente minimizamos a probabilidade logarítmica negativa (MLE equivalente). A única restrição para usar a probabilidade de log negativa é ter uma camada de saída que possa ser interpretada como uma distribuição de probabilidade. Uma camada de saída softmax é comumente usada para isso. Observe que na comunidade de redes neurais, a probabilidade de log negativa é algumas vezes referida como entropia cruzada. É claro que termos de regularização podem ser adicionados (e às vezes podem ser interpretados como distribuições anteriores sobre os parâmetros, nesse caso, estamos procurando o máximo a posteriori ( MAP )).
fonte