Vamos considerar as duas distribuições de probabilidade a seguir
P Q
0.01 0.002
0.02 0.004
0.03 0.006
0.04 0.008
0.05 0.01
0.06 0.012
0.07 0.014
0.08 0.016
0.64 0.928
divergência de Kullback-Leibler igual a . Quero saber em geral o que esse número me mostra? Geralmente, a divergência Kullback-Leibler me mostra a que distância uma distribuição de probabilidade é da outra, certo? É semelhante à terminologia da entropia, mas em termos de números, o que isso significa? Se eu tiver um resultado de 0,49, posso dizer que aproximadamente uma distribuição está longe de outra em 50%?
interpretation
information-theory
kullback-leibler
dato datuashvili
fonte
fonte
Respostas:
A divergência de Kullback-Leibler não é uma métrica propriamente dita, uma vez que não é simétrica e também não satisfaz a desigualdade do triângulo. Portanto, os "papéis" desempenhados pelas duas distribuições são diferentes, e é importante distribuí-los de acordo com o fenômeno do mundo real em estudo.
Quando escrevemos (o OP calculou a expressão usando logaritmos de base 2)
consideramos a distribuição a "distribuição alvo" (geralmente considerada a distribuição verdadeira), que aproximamos usando a distribuiçãoQP Q
Agora,
onde é a entropia de Shannon da distribuição e é chamada de "entropia cruzada de e ", também não simétrica.P - E P ( ln ( Q ) ) P QH( P) P - EP( em( Q ) ) P Q
Escrevendo
(aqui também, a ordem em que escrevemos as distribuições na expressão das questões da entropia cruzada, uma vez que também não é simétrica), permite ver que a KL-Divergence reflete um aumento na entropia sobre a inevitável entropia da distribuição .P
Portanto, não , é melhor que a divergência de KL não seja interpretada como uma "medida de distância" entre distribuições, mas como uma medida de aumento de entropia devido ao uso de uma aproximação à distribuição verdadeira e não à verdadeira distribuição em si .
Então, estamos na terra da teoria da informação. Para ouvir dos mestres (Cover & Thomas) "
As mesmas pessoas sábias dizem
Mas essa última abordagem é útil principalmente quando se tenta minimizar a divergência de KL para otimizar algum procedimento de estimativa. Para a interpretação do seu valor numérico per se , não é útil e deve-se preferir a abordagem "aumento da entropia".
Para as distribuições específicas da pergunta (sempre usando logaritmos de base 2)
Em outras palavras, você precisa de 25% mais bits para descrever a situação, se você estiver indo para usar enquanto a verdadeira distribuição é . Isso significa linhas de código mais longas, mais tempo para escrevê-las, mais memória, mais tempo para lê-las, maior probabilidade de erros etc. ... não é por acaso que Cover & Thomas dizem que KL-Divergence (ou "relativa entropia") " mede a ineficiência causada pela aproximação ".Q P
fonte
A divergência de KL mede a perda de informações necessária para representar um símbolo de P usando símbolos de Q. Se você obteve um valor de 0,49, significa que, em média, é possível codificar dois símbolos de P com os dois símbolos correspondentes de Q mais um pouco de informação extra .
fonte
fonte