a relação entre maximizar a probabilidade e minimizar a entropia cruzada

Respostas:

10

Para os rótulos , a probabilidade de alguns dados binários no modelo de Bernoulli com parâmetros é enquanto a probabilidade do log é yi{0,1}θ

L(θ)=i=1np(yi=1|θ)yip(yi=0|θ)1yi
logL(θ)=i=1nyilogp(y=1|θ)+(1yi)logp(y=0|θ)

E a entropia cruzada binária é

L(θ)=1ni=1nyilogp(y=1|θ)+(1yi)logp(y=0|θ)

Claramente, .logL(θ)=nL(θ)

Sabemos que o valor ideal é o mesmo para ambos, porque podemos observar que, para qualquer que não seja ideal, temos , que vale para qualquer . (Lembre-se, queremos minimizar a entropia cruzada , para que o ideal tenha o mínimo .)θθ1nL(θ)>1nL(θ)1n>0θL(θ)

Da mesma forma, sabemos que o valor ideal é o mesmo para e porque é uma função crescente monotônica para , para que possamos escrever . (Lembre-se, queremos maximizar a probabilidade , para que o ideal tenha o mais .)θlogL(θ)L(θ)log(x)xR+logL(θ)<logL(θ)θL(θ)

Algumas fontes omitem o da entropia cruzada. Claramente, isso altera apenas o valor de , mas não a localização dos ótimos; portanto, de uma perspectiva de otimização, a distinção não é importante. O sinal negativo, no entanto, é obviamente importante, pois é a diferença entre maximizar e minimizar!1nL(θ)

Sycorax diz restabelecer Monica
fonte