Por que a entropia cruzada se tornou a função de perda padrão de classificação e não a divergência de Kullbeck Leibler?

15

A entropia cruzada é idêntica à divergência KL mais a entropia da distribuição do alvo. KL é igual a zero quando as duas distribuições são iguais, o que me parece mais intuitivo do que a entropia da distribuição de destino, que é a entropia cruzada de uma correspondência.

Não estou dizendo que há mais informações em uma das outras, exceto que uma visão humana pode achar um zero mais intuitivo do que positivo. Obviamente, geralmente se usa um método avaliativo para realmente ver quão bem ocorre a classificação. Mas a escolha da entropia cruzada sobre a KL é histórica?

Josh Albert
fonte

Respostas:

12

Quando se trata de problema de classificação no aprendizado de máquina, a entropia cruzada e a divergência de KL são iguais . Como já indicado na pergunta, a fórmula geral é esta:

H(p,q)=H(p)+DKL(p||q)

Onde p uma distribuição “verdadeira” e q é uma distribuição estimada, H(p,q) é a entropia cruzada, H(p) é a entropia e D é a divergência de Kullback-Leibler.

Observe que no aprendizado de máquina, p é uma representação única da classe de verdade da terra, ou seja,

p=[0,...,1,...,0]

que é basicamente uma distribuição de função delta . Mas a entropia da função delta é zero, portanto a divergência KL é simplesmente igual à entropia cruzada.

H(p)0

Máxima
fonte
0

Entropia cruzada é uma entropia, não uma diferença de entropia.

Uma maneira mais natural e talvez intuitiva de conceituar os critérios de categorização é através de uma relação e não de uma definição.

H(P,Q)-H(P)=DKeu(P__Q)=-EuP(Eu)registroQ(Eu)P(Eu)

Isto segue paralelos, identificados por Claude Shannon e John von Neumann, entre termodinâmica da mecânica quântica e teoria da informação. Entropia não é uma quantidade absoluta. É relativo, portanto, nem a entropia nem a entropia cruzada podem ser calculadas, mas sua diferença pode ser no caso discreto acima ou no irmão contínuo abaixo.

H(P,Q)-H(P)=DKeu(P__Q)=--p(x)registroq(x)p(x)dx

Embora possamos ver H(...)=...na literatura, sem H '(...) no lado direito da equação, não é tecnicamente preciso. Nesses casos, há sempre alguma entropia implícita à qual a entropia no lado esquerdo é relativa.

FauChristian
fonte