Definição e origem da entropia cruzada

15

Sem citar fontes, a Wikipedia define a entropia cruzada de distribuições discretas e Q comoPQ

H×(P;Q)=-xp(x)registroq(x).

Quem foi o primeiro a começar a usar essa quantidade? E quem inventou esse termo? Eu olhei dentro:

JE Shore e RW Johnson, "Derivação axiomática do princípio da entropia máxima e do princípio da entropia cruzada mínima", Information Theory, IEEE Transactions on, vol. 26, n. 1, pp. 26-37, janeiro de 1980.

Eu segui a introdução deles para

A. Wehrl, "Propriedades gerais da entropia", Reviews of Modern Physics, vol. 50, n. 2, pp. 221-260, abril de 1978.

quem nunca usa o termo.

Nem faz

S. Kullback e R. Leibler, "Sobre informação e suficiência", The Annals of Mathematics Statistics, vol. 22, n. 1, pp. 79-86, 1951.

Eu olhei

TM Cover e JA Thomas, Elementos da Teoria da Informação (Série Wiley em Telecomunicações e Processamento de Sinais). Wiley-Interscience, 2006.

e

I. Bom, "Entropia Máxima para Formulação de Hipóteses, Especialmente para Tabelas de Contingência Multidimensional", The Annals of Mathematics Statistics, vol. 34, n. 3, pp. 911-934, 1963.

mas ambos os trabalhos definem entropia cruzada como sinônimo de divergência KL.

O artigo original

CE Shannon, "Uma Teoria Matemática da Comunicação", revista técnica do sistema Bell, vol. 27, 1948.

Não menciona entropia cruzada (e tem uma definição estranha de "entropia relativa": "A proporção da entropia de uma fonte para o valor máximo que ela poderia ter enquanto ainda estivesse restrita aos mesmos símbolos").

Finalmente, procurei em alguns livros e papéis antigos da Tribus.

Alguém sabe como é chamada a equação acima e quem a inventou ou tem uma boa apresentação dela?

Neil G
fonte

Respostas:

7

Eu1 1:2(E)2.2-2.4

EDITAR:

Aliases adicionais incluem a medida de informação de Kullback-Leibler, a medida de informação relativa, entropia cruzada, divergência de I e imprecisão de Kerridge .

Itamar
fonte
Obrigado! Eu verifiquei essas referências, mas ainda estou tendo problemas para encontrar o termo "entropia cruzada" ou uma equação correspondente. Informe-me se você viu um em um dos artigos ou livros.
21412 Neil G
11
Você também pode pesquisar no Google scholar os artigos com diferentes aliases publicados até um determinado ano (por exemplo, entropia cruzada até 1980 ).
Itamar
11
Em relação à sua edição recente, estou interessado no histórico do formulário fornecido na minha pergunta. Eu já notei que os primeiros artigos estavam usando "entropia cruzada" para significar "divergência de KL". (Nota que o papel Kullback é na minha pergunta.)
Neil G
Desculpe, eu perdi o papel Kullback na questão
Itamar
4

Graças à sugestão de @ Itamar, encontrei uma menção em:

IJ Good, "Alguma terminologia e notação na teoria da informação", Anais do IEE - Parte C: Monographs, vol. 103, n. 3, pp. 200-204, março de 1956.

Ainda seria realmente útil encontrar uma boa apresentação de entropia cruzada.

Neil G
fonte
2

Agradecimento por isso - bom resumo da literatura de fundo. O artigo de Shore e Johnson de 1980 no IEEE é um bom começo, mas o indicador de @ itamar para a monografia Good de 1956 é ainda melhor. O conceito parece vir do trabalho de Shannon, com a nota AMS de Kullback & Leibler de 1951 sendo a origem do uso atual do termo. Quanto à origem do termo "entropia cruzada" se refere a redes neurais artificiais, existe um termo usado em um artigo na Science, submetido em 1994, publicado em 1995, por GE Hinton, P. Dayan, BJ Frey e RM Neal, em que existe um uso precoce do termo "Hemholtz Machine" - possivelmente o primeiro. URL para cópia: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf Nesse artigo, "O algoritmo Wake-sleep para redes neurais não supervisionadas", a nota antes da equação nº 5 diz: "Quando existem muitas maneiras alternativas de descrever um vetor de entrada, é possível projetar um esquema de codificação estocástica que aproveite o entropia através de descrições alternativas [1]. O custo é então: "(consulte o documento para a eqn # 5)" O segundo termo é então a entropia da distribuição que os pesos de reconhecimento atribuem às várias representações alternativas. " Posteriormente neste artigo, a eqn # 5 é reescrita como eqn # 8, com o último termo descrito como a divergência de Kullback-Leibler entre a distribuição de probabilidade inicial e a distribuição de probabilidade posterior. O artigo afirma: "Assim, para dois modelos generativos que atribuem igual probabilidade a d, ) Este artigo ainda descreve o processo de minimização para esse algoritmo específico como minimizando a divergência de Kullback-Leibler, mas parece que poderia ser onde o termo "entropia entre descrições alternativas" foi reduzido para apenas "entropia cruzada". Para um exemplo numérico de entropia cruzada, usando o TensorFlow, consulte a publicação aqui, é útil: ) Este artigo ainda descreve o processo de minimização para esse algoritmo específico como minimizando a divergência de Kullback-Leibler, mas parece que poderia ser onde o termo "entropia entre descrições alternativas" foi reduzido para apenas "entropia cruzada". Para um exemplo numérico de entropia cruzada, usando o TensorFlow, consulte a publicação aqui, é útil: /programming/41990250/what-is-cross-entropy Observe que a solução de CE = 0.47965 é derivada simplesmente tomando o log natural da probabilidade .619. No exemplo acima, o uso da codificação "one hot" significa que as outras duas probabilidades iniciais e posteriores são ignoradas devido à multiplicação pela probabilidade inicial com valor zero, no somatório para entropia cruzada.

gemesyscanada
fonte
+1 Isso pode estar certo. Então, você está dizendo que 1994 é a origem da definição moderna de entropia cruzada?
Neil G