Intuitivamente, por que a entropia cruzada é uma medida da distância de duas distribuições de probabilidade?

11

Para duas distribuições discretas e q , a entropia cruzada é definida comopq

H(p,q)=xp(x)logq(x).

Eu me pergunto por que isso seria uma medida intuitiva de distância entre duas distribuições de probabilidade?

Vejo que é a entropia de p , que mede a "surpresa" de p . H ( p , q ) é a medida que substitui parcialmente p por q . Ainda não entendo o significado intuitivo por trás da definição.H(p,p)ppH(p,q)pq

Kadistar
fonte
11
Eu recomendo que você procure a definição matemática de métrica (e distância). geralmente, seguir essas propriedades é o mínimo que uma função deve seguir, pois existe uma distância. Espero que ajude. Embora pareça . Intuitivamente, uma vez que é uma função que faz parte da divergência KL, eu assumiria que é uma espécie de divergência de peq compensada pela entropia p. Embora, é apenas um palpite. Além disso, a divergência não é uma métrica / distância, então eu ficaria surpreso se a Entropia cruzada for. H(p,q)=H(p)+DKL(p||q)
Charlie Parker
Então entendimento divergência Kullback_leibler ajuda a entender entropia cruzada: stats.stackexchange.com/questions/188903/...
b Kjetil Halvorsen
11
Aqui é um grande vídeo explicando KL Divergência de uma forma clara e simples: youtube.com/watch?v=ErfnhcEV1O8
Katherine Chen
Veja se essa "Intuição por trás da entropia cruzada" ajuda: medium.com/@siddharth.4oct/…
Siddharth Roy

Respostas:

6

Minimizar a entropia cruzada é frequentemente usado como objetivo de aprendizado em modelos generativos, em que p é a distribuição verdadeira e q é a distribuição aprendida.

A entropia cruzada de p e q é igual à entropia de p mais a divergência de KL entre p e q.

H(p,q)=H(p)+DKL(p||q)

H(p)p

Observe que a divergência de KL não é uma métrica de distância adequada. Por um lado, não é simétrico em peq. Se você precisar de uma métrica de distância para distribuições de probabilidade, precisará usar outra coisa. Mas, se você estiver usando a palavra "distância" informalmente, poderá usar a divergência KL.

Aaron
fonte
11
por que você pode pensar em p como uma constante? O que você está aprendendo"? q? A pergunta original não disse nada sobre a aprendizagem, por isso, eu estaria interessado em entender melhor o que você quis dizer :)
Charlie Parker
2
editou para torná-lo mais claro. p é a distribuição que vem dos dados de treinamento eq é aprendida pelo modelo.
Aaron