Sem citar fontes, a Wikipedia define a entropia cruzada de distribuições discretas e Q como
Quem foi o primeiro a começar a usar essa quantidade? E quem inventou esse termo? Eu olhei dentro:
JE Shore e RW Johnson, "Derivação axiomática do princípio da entropia máxima e do princípio da entropia cruzada mínima", Information Theory, IEEE Transactions on, vol. 26, n. 1, pp. 26-37, janeiro de 1980.
Eu segui a introdução deles para
A. Wehrl, "Propriedades gerais da entropia", Reviews of Modern Physics, vol. 50, n. 2, pp. 221-260, abril de 1978.
quem nunca usa o termo.
Nem faz
S. Kullback e R. Leibler, "Sobre informação e suficiência", The Annals of Mathematics Statistics, vol. 22, n. 1, pp. 79-86, 1951.
Eu olhei
TM Cover e JA Thomas, Elementos da Teoria da Informação (Série Wiley em Telecomunicações e Processamento de Sinais). Wiley-Interscience, 2006.
e
I. Bom, "Entropia Máxima para Formulação de Hipóteses, Especialmente para Tabelas de Contingência Multidimensional", The Annals of Mathematics Statistics, vol. 34, n. 3, pp. 911-934, 1963.
mas ambos os trabalhos definem entropia cruzada como sinônimo de divergência KL.
O artigo original
CE Shannon, "Uma Teoria Matemática da Comunicação", revista técnica do sistema Bell, vol. 27, 1948.
Não menciona entropia cruzada (e tem uma definição estranha de "entropia relativa": "A proporção da entropia de uma fonte para o valor máximo que ela poderia ter enquanto ainda estivesse restrita aos mesmos símbolos").
Finalmente, procurei em alguns livros e papéis antigos da Tribus.
Alguém sabe como é chamada a equação acima e quem a inventou ou tem uma boa apresentação dela?
fonte
Graças à sugestão de @ Itamar, encontrei uma menção em:
IJ Good, "Alguma terminologia e notação na teoria da informação", Anais do IEE - Parte C: Monographs, vol. 103, n. 3, pp. 200-204, março de 1956.
Ainda seria realmente útil encontrar uma boa apresentação de entropia cruzada.
fonte
Agradecimento por isso - bom resumo da literatura de fundo. O artigo de Shore e Johnson de 1980 no IEEE é um bom começo, mas o indicador de @ itamar para a monografia Good de 1956 é ainda melhor. O conceito parece vir do trabalho de Shannon, com a nota AMS de Kullback & Leibler de 1951 sendo a origem do uso atual do termo. Quanto à origem do termo "entropia cruzada" se refere a redes neurais artificiais, existe um termo usado em um artigo na Science, submetido em 1994, publicado em 1995, por GE Hinton, P. Dayan, BJ Frey e RM Neal, em que existe um uso precoce do termo "Hemholtz Machine" - possivelmente o primeiro. URL para cópia: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf Nesse artigo, "O algoritmo Wake-sleep para redes neurais não supervisionadas", a nota antes da equação nº 5 diz: "Quando existem muitas maneiras alternativas de descrever um vetor de entrada, é possível projetar um esquema de codificação estocástica que aproveite o entropia através de descrições alternativas [1]. O custo é então: "(consulte o documento para a eqn # 5)" O segundo termo é então a entropia da distribuição que os pesos de reconhecimento atribuem às várias representações alternativas. " Posteriormente neste artigo, a eqn # 5 é reescrita como eqn # 8, com o último termo descrito como a divergência de Kullback-Leibler entre a distribuição de probabilidade inicial e a distribuição de probabilidade posterior. O artigo afirma: "Assim, para dois modelos generativos que atribuem igual probabilidade a d, ) Este artigo ainda descreve o processo de minimização para esse algoritmo específico como minimizando a divergência de Kullback-Leibler, mas parece que poderia ser onde o termo "entropia entre descrições alternativas" foi reduzido para apenas "entropia cruzada". Para um exemplo numérico de entropia cruzada, usando o TensorFlow, consulte a publicação aqui, é útil: ) Este artigo ainda descreve o processo de minimização para esse algoritmo específico como minimizando a divergência de Kullback-Leibler, mas parece que poderia ser onde o termo "entropia entre descrições alternativas" foi reduzido para apenas "entropia cruzada". Para um exemplo numérico de entropia cruzada, usando o TensorFlow, consulte a publicação aqui, é útil: /programming/41990250/what-is-cross-entropy Observe que a solução de CE = 0.47965 é derivada simplesmente tomando o log natural da probabilidade .619. No exemplo acima, o uso da codificação "one hot" significa que as outras duas probabilidades iniciais e posteriores são ignoradas devido à multiplicação pela probabilidade inicial com valor zero, no somatório para entropia cruzada.
fonte