Análise da divergência Kullback-Leibler

18

Vamos considerar as duas distribuições de probabilidade a seguir

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

divergência de Kullback-Leibler igual a . Quero saber em geral o que esse número me mostra? Geralmente, a divergência Kullback-Leibler me mostra a que distância uma distribuição de probabilidade é da outra, certo? É semelhante à terminologia da entropia, mas em termos de números, o que isso significa? Se eu tiver um resultado de 0,49, posso dizer que aproximadamente uma distribuição está longe de outra em 50%?0.492820258

dato datuashvili
fonte
Veja a discussão aqui, que pode ser de alguma ajuda.
Glen_b -Reinstala Monica
Você leu o artigo da wikipedia?
Neil G

Respostas:

42

A divergência de Kullback-Leibler não é uma métrica propriamente dita, uma vez que não é simétrica e também não satisfaz a desigualdade do triângulo. Portanto, os "papéis" desempenhados pelas duas distribuições são diferentes, e é importante distribuí-los de acordo com o fenômeno do mundo real em estudo.

Quando escrevemos (o OP calculou a expressão usando logaritmos de base 2)

K(P||Q)=Euregistro2(pEu/qEu)pEu

consideramos a distribuição a "distribuição alvo" (geralmente considerada a distribuição verdadeira), que aproximamos usando a distribuiçãoQPQ

Agora,

Euregistro2(pEu/qEu)pEu=Euregistro2(pEu)pEu-Euregistro2(qEu)pEu=-H(P)-EP(em(Q))

onde é a entropia de Shannon da distribuição e é chamada de "entropia cruzada de e ", também não simétrica.P - E P ( ln ( Q ) ) P QH(P)P-EP(em(Q))PQ

Escrevendo

K(P||Q)=H(P,Q)-H(P)

(aqui também, a ordem em que escrevemos as distribuições na expressão das questões da entropia cruzada, uma vez que também não é simétrica), permite ver que a KL-Divergence reflete um aumento na entropia sobre a inevitável entropia da distribuição .P

Portanto, não , é melhor que a divergência de KL não seja interpretada como uma "medida de distância" entre distribuições, mas como uma medida de aumento de entropia devido ao uso de uma aproximação à distribuição verdadeira e não à verdadeira distribuição em si .

Então, estamos na terra da teoria da informação. Para ouvir dos mestres (Cover & Thomas) "

... se soubéssemos a verdadeira distribuição da variável aleatória, poderíamos construir um código com o comprimento médio da descrição . Se, em vez disso, usamos o código para uma distribuição , precisaríamos de bits na média para descrever a variável aleatória.H ( P ) Q H ( P ) + K ( P | | Q )PH(P)QH(P)+K(P||Q)

As mesmas pessoas sábias dizem

... não é uma distância verdadeira entre distribuições, pois não é simétrica e não satisfaz a desigualdade do triângulo. No entanto, muitas vezes é útil pensar na entropia relativa como uma "distância" entre distribuições.

Mas essa última abordagem é útil principalmente quando se tenta minimizar a divergência de KL para otimizar algum procedimento de estimativa. Para a interpretação do seu valor numérico per se , não é útil e deve-se preferir a abordagem "aumento da entropia".

Para as distribuições específicas da pergunta (sempre usando logaritmos de base 2)

K(P||Q)=0,49282,H(P)=1.9486

Em outras palavras, você precisa de 25% mais bits para descrever a situação, se você estiver indo para usar enquanto a verdadeira distribuição é . Isso significa linhas de código mais longas, mais tempo para escrevê-las, mais memória, mais tempo para lê-las, maior probabilidade de erros etc. ... não é por acaso que Cover & Thomas dizem que KL-Divergence (ou "relativa entropia") " mede a ineficiência causada pela aproximação ".QP

Alecos Papadopoulos
fonte
Resposta extremamente útil e informativa.
MadHatter
1

A divergência de KL mede a perda de informações necessária para representar um símbolo de P usando símbolos de Q. Se você obteve um valor de 0,49, significa que, em média, é possível codificar dois símbolos de P com os dois símbolos correspondentes de Q mais um pouco de informação extra .

Aaron
fonte
1

PQP

Neil G
fonte