Qualitativamente, o que é entropia cruzada

15

Esta questão fornece uma definição quantitativa de entropia cruzada, em termos de sua fórmula.

Estou procurando uma definição mais fictícia, diz a wikipedia:

Na teoria da informação, a entropia cruzada entre duas distribuições de probabilidade mede o número médio de bits necessários para identificar um evento a partir de um conjunto de possibilidades, se um esquema de codificação for usado com base em uma determinada distribuição de probabilidade q, em vez da distribuição "verdadeira" p .

Enfatizei a parte que está me dando problemas para entender isso. Gostaria de uma boa definição que não exija entendimento separado (pré-existente) da Entropia.

Lyndon White
fonte
1
Você está solicitando uma definição de entropia cruzada que, ao mesmo tempo, defina a própria entropia . E intuitivamente, então ... Se você tiver problemas para entender o próprio conceito de Entropia, seria uma boa ideia primeiro entender o conceito básico e depois qualquer uma de suas extensões.
Alecos Papadopoulos
1
Pessoalmente, eu tinha um entendimento básico de Entropy (embora já tenham passado quase 12 meses desde que eu o apliquei). Mas uma expressão quantitativa de entropia deve caber em um parágrafo curto e a entropia cruzada deve levar apenas mais um. Acho que uma boa resposta pode incluir as duas, para que o leitor não precise se referir a outro lugar para entendê-la.
Lyndon White

Respostas:

23

Para codificar um evento que ocorre com probabilidade você precisa de pelo menos log 2 ( 1 / p ) bits (por quê? Veja minha resposta em "Qual é o papel do logaritmo na entropia de Shannon?" ).pregistro2(1/p)

Assim, em óptima que codifica para o comprimento médio da mensagem codificada é isto é,entropiadeShannonda distribuição de probabilidade original.

EupEuregistro2(1pEu),

PQ

EupEucode_length (Eu)=EupEuregistro2(1qEu),
EupEuregistro2(1pEu)

P=(12,12,0 0,0 0)

Então, se queremos codificá-lo de maneira ideal, codificamos A como 0 e B como 1, para obter um bit de mensagem codificada por uma letra. (E é exatamente a entropia de Shannon da nossa distribuição de probabilidade.)

PQ=(14,14,14,14), obtemos dois bits por letra (por exemplo, codificamos A como 00, B como 01, C como 10 e D como 11).

Piotr Migdal
fonte
Boa explicação, obrigado. No entanto, a definição da Wikipedia é sum_i [p_i * log (q_i)]. Seu uso de 1 / q_i fornece o número de estados possíveis; portanto, o log_2 converte isso no número de bits necessário para codificar um único símbolo, mas a página da Wikipédia está descrevendo algo sutilmente diferente.
redcalx
4
@locster Na Wikipedia, possui o sinal de menos antes da soma, o que equivale a ter 1/qEu, Como registro(1/qEu)=-registro(qEu).
Piotr Migdal