Seja os dados . Escreva F ( x ) para a distribuição empírica. Por definição, para qualquer função f ,x =( x1 1, … , Xn)F( X )f
EF( X )[ f( X) ] = 1n∑i = 1nf( xEu) .
Deixe o modelo tem densidade e f ( x ) , onde f é definido sobre o suporte do modelo. A entropia cruzada de F ( x ) e M é definida comoMef( X )fF( X )M
H( F( x ) , M) = - EF( X )[ log( ef( X)] = - EF( X )[ f( X) ] = - 1n∑i = 1nf( xEu) .(1)
Supondo que é uma amostra aleatória simples, sua probabilidade de log negativa éx
- log( L ( x ) ) = - log∏i = 1nef( xEu)= - ∑i = 1nf( xEu)2)
em virtude das propriedades dos logaritmos (eles convertem produtos em somas). A expressão é uma constante n vezes a expressão ( 1 ) . Como as funções de perda são usadas apenas nas estatísticas, comparando-as, não faz diferença que uma seja uma constante (positiva) vezes a outra. É nesse sentido que a probabilidade logarítmica negativa "é uma" entropia cruzada na cotação.( 2 )n( 1 )
É preciso um pouco mais de imaginação para justificar a segunda afirmação da citação. A conexão com o erro quadrado é clara, porque para um "modelo gaussiano" que prediz valores nos pontos x , o valor de f em qualquer ponto desse tipo ép ( x )xf
f( x ; p , σ) = - 12( log( 2 πσ2) + ( x - p ( x ) )2σ2) ,
que é o erro do quadrado mas redimensionado por 1 / ( 2 σ 2 ) e deslocado por uma função de σ . Uma maneira de corrigir a cotação é assumir que ela não considera σ parte do "modelo" - σ deve ser determinada de alguma forma independentemente dos dados. Nesse caso, as diferenças entre os erros quadráticos médios são proporcionais às diferenças entre entropias ou verossimilhanças, tornando assim os três equivalentes para fins de ajuste do modelo.( x - p ( x ) )2 1 / ( 2 σ2)σσσ
(Normalmente, porém, é adequado como parte do processo de modelagem; nesse caso, a cotação não seria muito correta.)σ= σ( X )
Para os leitores do livro Deep Learning, gostaria de acrescentar à excelente resposta aceita que os autores explicam sua declaração em detalhes na seção 5.5.1, a saber o Exemplo: Regressão Linear como Máxima Verossimilhança .
Lá, eles listam exatamente a restrição mencionada na resposta aceita:
fonte