Dúvidas sobre a divergência de KL?

14

Estou comparando duas distribuições com a divergência de KL, que me retorna um número não padronizado que, de acordo com o que li sobre essa medida, é a quantidade de informações necessárias para transformar uma hipótese na outra. Eu tenho duas perguntas:

a) Existe uma maneira de quantificar uma divergência KL para que ela tenha uma interpretação mais significativa, por exemplo, como um tamanho de efeito ou um R ^ 2? Alguma forma de padronização?

b) Em R, ao usar o KLdiv (pacote flexmix), é possível definir o valor 'esp' (padrão esp = 1e-4) que define todos os pontos menores que esp para algum padrão, a fim de fornecer estabilidade numérica. Eu tenho jogado com valores esp diferentes e, para o meu conjunto de dados, estou obtendo uma divergência KL cada vez maior quanto menor o número que escolho. O que está acontecendo? Eu esperaria que, quanto menor o esp, mais confiáveis ​​sejam os resultados, pois permitem que mais "valores reais" se tornem parte da estatística. Não? Eu tenho que mudar o esp, pois caso contrário não calcula a estatística, mas simplesmente aparece como NA na tabela de resultados ...

Ampleforth
fonte

Respostas:

10

Suponha que você receba n amostras de IDI geradas por p ou por q. Você deseja identificar qual distribuição os gerou. Tome como hipótese nula que eles foram gerados por q. Permita que indique a probabilidade de erro do Tipo I, rejeitando erroneamente a hipótese nula eb indica a probabilidade de erro do Tipo II.

Então, para n grande, a probabilidade de erro do tipo I é pelo menos

exp(nKL(p,q))

Em outras palavras, para um procedimento de decisão "ideal", a probabilidade do Tipo I cai no máximo por um fator de exp (KL (p, q)) com cada ponto de dados. O erro do tipo II cai pelo fator de no máximo.exp(KL(q,p))

Para n arbitrário, aeb estão relacionados da seguinte maneira

blogb1a+(1b)log1banKL(p,q)

e

aloga1b+(1a)log1abnKL(q,p)

Se expressarmos o limite acima como o limite inferior em a em termos de be KL e diminuirmos b para 0, o resultado parecerá aproximar-se do "exp (-n KL (q, p))" vinculado mesmo para n pequeno

Mais detalhes na página 10 aqui e nas páginas 74-77 de "Information Theory and Statistics" de Kullback (1978).

Como observação lateral, essa interpretação pode ser usada para motivar a métrica de Informações de Fisher, pois para qualquer par de distribuições p, q na distância de Fisher k uma da outra (k pequena), você precisa do mesmo número de observações para diferenciá-las.

Yaroslav Bulatov
fonte
1
+1 Eu gosto dessa interpretação! você poderia esclarecer "p abaixo e"? por que você toma pequeno e? você diz que "a probabilidade de cometer o erro oposto é" é um limite superior ou uma probabilidade exata? Se bem me lembro, esse tipo de abordagem se deve a Chernoff, você tem as referências (acho que sua primeira referência não está esclarecendo o ponto :))?
22610 robin girard #
1
Por que eu tomo pequeno e ... hmm ... foi o que o artigo de Balasubramanian fez, mas agora, voltando a Kullback, parece que o limite dele vale para qualquer e, e ele também dá o limite para n finito, deixe-me atualizar a resposta
Yaroslav Bulatov 12/08/10
ok, não precisamos que pequeno e (agora chamado b, erro tipo II) seja pequeno para que o limite seja retido, mas b = 0 é o valor pelo qual o simplificado (exp (-n KL (p, q)) vincula . corresponde ao mais complicado ligada acima Curiosamente, limite inferior para o erro tipo I dada 0 Tipo II erro é <1, gostaria de saber se <1 taxa de erro Tipo II é realmente viável
Yaroslav Bulatov
1
Na verdade, um mais fácil tanto para entender referência para este é de Capa "Elementos de Teoria da Informação", página 309, 12,8 "de Stein Lema"
Yaroslav Bulatov
8

KL tem um significado profundo quando você visualiza um conjunto de dentaduras como um coletor dentro do tensor métrico fisher, fornece a distância geodésica entre duas distribuições "próximas". Formalmente:

ds2=2KL(p(x,θ),p(x,θ+dθ))

As linhas a seguir estão aqui para explicar com detalhes o que significa essas las fórmulas matemáticas.

Definição da métrica de Fisher.

Considere uma família parametrizada de distribuições de probabilidade (dada pelas densidades em R n ), onde x é uma variável aleatória e teta é um parâmetro em R p . Todos vocês sabem que a matriz de informações de Fisher F = ( F i j ) éD=(f(x,θ))RnxRpF=(Fij)

Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]

Com esta notação, é um coletor riemanniano e F ( θ ) é um tensor métrico riemanniano. (O interesse dessa métrica é dado pelo teorema do limite inferior do cramer Rao)DF(θ)

Você pode dizer ... OK abstração matemática, mas onde está o KL?

Não é abstração matemática, se você pode realmente imaginar sua densidade parametrizada como uma curva (em vez de um subconjunto de um espaço de dimensão infinita) e F 11 está conectado à curvatura dessa curva ... (veja o seminal artigo de Bradley Efron http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282 )p=1F11

ds2p(x,θ)p(x,θ+dθ) no colector (penso de distância geodésica sobre terra de dois pontos próximos, está relacionada à curvatura da terra) é dada pela forma quadrática:

ds2=Fijdθidθj

e é conhecido por ser o dobro da divergência Kullback Leibler:

ds2=2KL(p(x,θ),p(x,θ+dθ))

If you want to learn more about that I suggest reading the paper from Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (I think there is also a book from Amari about riemannian geometry in statistic but I don't remember the name)

robin girard
fonte
Please add $ around your LaTeX. It should now be rendered ok. See meta.math.stackexchange.com/questions/2/…
Rob Hyndman
1
Since I am not a mathematician nor a statistician, I would like to restate what you were saying to make sure I did not mis-understand. So, you are saying that taking ds^2 (twice the KL) would have a similar meaning as R^2 (in a regression model) for a general distribution. And that this could actually be used to quantify distances geometrically? Does ds^2 have a name so I can do more reading about this. Is there a paper that directly describes this metric and shows applications and examples?
Ampleforth
I think you are far from understanding the point, and I am not sure you should try to go further now. If you are motivated, you can read the paper from Bradley Efron I mentionned or that paper from Amari projecteuclid.org/….
robin girard
1
This seems to be a characterization of directional derivative of KL rather than of KL itself, and it doesn't seem possible to get KL divergence out of it because unlike the derivative, KL-divergence doesn't depend on the geometry of the manifold
Yaroslav Bulatov
7

The KL(p,q) divergence between distributions p(.) and q(.) has an intuitive information theoretic interpretation which you may find useful.

Suppose we observe data x generated by some probability distribution p(.). A lower bound on the average codelength in bits required to state the data generated by p(.) is given by the entropy of p(.).

Now, since we don't know p(.) we choose another distribution, say, q(.) to encode (or describe, state) the data. The average codelength of data generated by p(.) and encoded using q(.) will necessarily be longer than if the true distribution p(.) was used for the coding. The KL divergence tells us about the inefficiencies of this alternative code. In other words, the KL divergence between p(.) and q(.) is the average number of extra bits required to encode data generated by p(.) using coding distribution q(.). The KL divergence is non-negative and equal to zero iff the actual data generating distribution is used to encode the data.

emakalic
fonte
2

For part (b) of your question, you might be running into the problem that one of of your distributions has density in a region where the other does not.

D(PQ)=pilnpiqi

This diverges if there exists an i where pi>0 and qi=0. The numerical epsilon in the R implementation "saves you" from this problem; but it means that the resulting value is dependent on this parameter (technically qi=0 is no required, just that qi is less than the numerical epsilon).

Dave
fonte