Esta pergunta me intrigou por um longo tempo. Entendo o uso de 'log' para maximizar a probabilidade, por isso não estou perguntando sobre 'log'.
Minha pergunta é: como maximizar a probabilidade do log é equivalente a minimizar a "probabilidade do log negativo" (NLL), por que inventamos esse NLL? Por que não usamos a "probabilidade positiva" o tempo todo? Em que circunstâncias a NLL é favorecida?
Encontrei uma pequena explicação aqui. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , e parece explicar a equivalência óbvia em profundidade, mas não resolve minha confusão.
Qualquer explicação será apreciada.
Respostas:
Esta é uma resposta alternativa : otimizadores em pacotes estatísticos geralmente funcionam minimizando o resultado de uma função. Se sua função fornecer o valor de probabilidade primeiro, é mais conveniente usar o logaritmo para diminuir o valor retornado pela função de probabilidade. Então, como a probabilidade de log e a função de probabilidade têm a mesma tendência crescente ou decrescente, você pode minimizar a probabilidade de log negativo para realmente executar a estimativa de probabilidade máxima da função que está sendo testada. Veja, por exemplo, a
nlminb
função em R aquifonte
Os otimizadores geralmente minimizam uma função; portanto, usamos a probabilidade de log negativa como uma minimização equivalente a maximizar a probabilidade de log ou a própria probabilidade.
Apenas para completar, eu mencionaria que o logaritmo é uma função monotônica; portanto, otimizar uma função é o mesmo que otimizar o logaritmo dela. A transformação do log da função de probabilidade torna mais fácil o manuseio (a multiplicação se torna soma) e isso também é numericamente mais estável. Isso ocorre porque a magnitude das probabilidades pode ser muito pequena. Fazer uma transformação de log converte esses pequenos números em valores negativos maiores, com os quais uma máquina de precisão finita pode lidar melhor.
fonte
Aqui, meios de minimização diminuem a distância de duas distribuições para a sua mais baixa: a distribuição alvo de Bernoulli e a distribuição de resultados gerada. Medimos a distância de duas distribuições usando a divergência de Kullback-Leibler (também chamada de entropia relativa) e, devido à teoria dos grandes números, minimizar a divergência de KL equivale a minimizar a entropia cruzada (entropia cruzada de várias classes, veja aqui ou classificação binária, veja aqui e aqui ).
portanto
pode ser traduzido para
Maximizar a probabilidade do log é equivalente a minimizar a distância entre duas distribuições, portanto, é minimizar a divergência de KL e, em seguida, a entropia cruzada.
Eu acho que se tornou bastante intuitivo.
fonte
A resposta é mais simples do que você imagina. É a convenção que chamamos a função de objetivo de otimização de "função de custo" ou "função de perda" e, portanto, queremos minimizá-las, em vez de maximizá-las, e, portanto, a probabilidade de log negativa é formada, em vez de probabilidade positiva em seu palavra. Tecnicamente, ambos estão corretos. A propósito, se queremos maximizar algo, geralmente chamamos de "função de utilidade" e, portanto, o objetivo é maximizá-los.
fonte