Você precisará de algumas condições para reivindicar a equivalência entre minimizar a entropia cruzada e minimizar a divergência de KL. Vou colocar sua pergunta no contexto de problemas de classificação usando entropia cruzada como funções de perda.
Lembremos primeiro que a entropia é usada para medir a incerteza de um sistema, que é definido como
para como as probabilidades dos diferentes estados do sistema. Do ponto de vista da teoria da informação, é a quantidade de informação necessária para remover a incerteza.S( v ) = - ∑Eup ( vEu) logp ( vEu) ,
p ( vEu)vEuS( V )
Por exemplo, o evento A I will die eventually
é quase certo (talvez possamos resolver o problema do envelhecimento por palavra almost
); portanto, ele tem baixa entropia, o que requer apenas as informações the aging problem cannot be solved
para torná-lo certo. No entanto, o evento B The president will die in 50 years
é muito mais incerto que A, portanto, ele precisa de mais informações para remover as incertezas.
Agora observe a definição de divergência de KL entre os eventos A e B
onde o primeiro termo do lado direito é a entropia do evento A, o segundo termo pode ser interpretado como a expectativa do evento B em termos do evento A. descreve como B é diferente de A da perspectiva de A. DKeu( A ∥ B ) = ∑EupUMA( vEu) logpUMA( vEu) - pUMA( vEu) logpB( vEu) ,
DKeu
Para relacionar entropia cruzada com entropia e divergência de KL, formalizamos a entropia cruzada em termos dos eventos A e B como
A partir das definições, podemos ver facilmente
Se for uma constante, minimizar é equivalente a minimizar .H( A , B ) = - ∑EupUMA( vEu) logpB( vEu) .
H( A , B ) = DKeu( A ∥ B ) + SUMA.
SUMAH( A , B )DKeu( A ∥ B )
Uma outra pergunta segue naturalmente como a entropia pode ser uma constante. Em uma tarefa de aprendizado de máquina, começamos com um conjunto de dados (denotado como ) que representa o problema a ser resolvido, e o objetivo do aprendizado é tornar a distribuição estimada do modelo (denotada como ) o mais próxima possível para a verdadeira distribuição do problema (denotada como ).
é desconhecido e representado por . Portanto, em um mundo ideal, esperamos
e minimizar . E, felizmente, na práticaP( D )P( m o de l )P( t r u t h )P( t r u t h )) ∥ P ( m o d e L ) ) D S ( D )P( D )P( m o de l ) ≈ P( D ) ≈ P( t r u t h )
DKeu( P( D ) ∥ P( m o de l ) )Dé dado, o que significa que sua entropia é fixada como uma constante.S( D )
Suponho que seja porque os modelos costumam trabalhar com as amostras embaladas em mini-lotes. Para divergência de KL e entropia cruzada, sua relação pode ser escrita como A partir da equação, Pudemos ver que a divergência KL pode partir para uma entropia cruzada de peq (a primeira parte) e uma entropia global da verdade fundamental p (a segunda parte).H( q, p ) = DKeu( p , q) + H( p ) = - ∑EupEul o g( qEu)
Em muitos projetos de aprendizado de máquina, o minibatch está envolvido para agilizar o treinamento, onde o de um minibatch pode ser diferente do global . Nesse caso, a entropia cruzada é relativamente mais robusta na prática, enquanto a divergência de KL precisa de um H (p) mais estável para concluir seu trabalho.p′ p
fonte