Estou comparando duas distribuições com a divergência de KL, que me retorna um número não padronizado que, de acordo com o que li sobre essa medida, é a quantidade de informações necessárias para transformar uma hipótese na outra. Eu tenho duas perguntas:
a) Existe uma maneira de quantificar uma divergência KL para que ela tenha uma interpretação mais significativa, por exemplo, como um tamanho de efeito ou um R ^ 2? Alguma forma de padronização?
b) Em R, ao usar o KLdiv (pacote flexmix), é possível definir o valor 'esp' (padrão esp = 1e-4) que define todos os pontos menores que esp para algum padrão, a fim de fornecer estabilidade numérica. Eu tenho jogado com valores esp diferentes e, para o meu conjunto de dados, estou obtendo uma divergência KL cada vez maior quanto menor o número que escolho. O que está acontecendo? Eu esperaria que, quanto menor o esp, mais confiáveis sejam os resultados, pois permitem que mais "valores reais" se tornem parte da estatística. Não? Eu tenho que mudar o esp, pois caso contrário não calcula a estatística, mas simplesmente aparece como NA na tabela de resultados ...
fonte
KL tem um significado profundo quando você visualiza um conjunto de dentaduras como um coletor dentro do tensor métrico fisher, fornece a distância geodésica entre duas distribuições "próximas". Formalmente:
As linhas a seguir estão aqui para explicar com detalhes o que significa essas las fórmulas matemáticas.
Definição da métrica de Fisher.
Considere uma família parametrizada de distribuições de probabilidade (dada pelas densidades em R n ), onde x é uma variável aleatória e teta é um parâmetro em R p . Todos vocês sabem que a matriz de informações de Fisher F = ( F i j ) éD=(f(x,θ)) Rn x Rp F=(Fij)
Com esta notação, é um coletor riemanniano e F ( θ ) é um tensor métrico riemanniano. (O interesse dessa métrica é dado pelo teorema do limite inferior do cramer Rao)D F(θ)
Você pode dizer ... OK abstração matemática, mas onde está o KL?
Não é abstração matemática, se você pode realmente imaginar sua densidade parametrizada como uma curva (em vez de um subconjunto de um espaço de dimensão infinita) e F 11 está conectado à curvatura dessa curva ... (veja o seminal artigo de Bradley Efron http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282 )p=1 F11
e é conhecido por ser o dobro da divergência Kullback Leibler:
If you want to learn more about that I suggest reading the paper from Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (I think there is also a book from Amari about riemannian geometry in statistic but I don't remember the name)
fonte
The KL(p,q) divergence between distributions p(.) and q(.) has an intuitive information theoretic interpretation which you may find useful.
Suppose we observe data x generated by some probability distribution p(.). A lower bound on the average codelength in bits required to state the data generated by p(.) is given by the entropy of p(.).
Now, since we don't know p(.) we choose another distribution, say, q(.) to encode (or describe, state) the data. The average codelength of data generated by p(.) and encoded using q(.) will necessarily be longer than if the true distribution p(.) was used for the coding. The KL divergence tells us about the inefficiencies of this alternative code. In other words, the KL divergence between p(.) and q(.) is the average number of extra bits required to encode data generated by p(.) using coding distribution q(.). The KL divergence is non-negative and equal to zero iff the actual data generating distribution is used to encode the data.
fonte
For part (b) of your question, you might be running into the problem that one of of your distributions has density in a region where the other does not.
This diverges if there exists ani where pi>0 and qi=0 .
The numerical epsilon in the R implementation "saves you" from this problem; but it means that the resulting value is dependent on this parameter (technically qi=0 is no required, just that qi is less than the numerical epsilon).
fonte