Divergência de Kullback-Leibler SEM teoria da informação

23

Depois de muita pesquisa cruzada validada, ainda não me sinto mais perto de entender a divergência entre KL fora do campo da teoria da informação. É bastante estranho, como alguém com formação em matemática, achar muito mais fácil entender a explicação da teoria da informação.

Para delinear meu entendimento a partir de um histórico da teoria da informação: se tivermos uma variável aleatória com um número finito de resultados, existe uma codificação ideal que nos permite comunicar o resultado com outra pessoa com, em média, a mensagem mais curta (acho mais fácil imagem em termos de bits). A duração esperada da mensagem que seria necessária para comunicar o resultado é dada por

αpαlog2(pα)
se a codificação ideal for usada. Se você usar uma codificação subótima, a divergência de KL nos dirá, em média, quanto tempo nossa mensagem seria.

Eu gosto dessa explicação, porque lida intuitivamente com a assimetria da divergência de KL. Se tivermos dois sistemas diferentes, ou seja, duas moedas carregadas com carga diferente, elas terão codificações ótimas diferentes. De alguma forma, não sinto instintivamente que usar a codificação do segundo sistema para o primeiro é "igualmente ruim" para usar a codificação do primeiro sistema para o segundo. Sem passar pelo processo de pensamento de como me convenci, agora estou bastante feliz que

αpα(log2qαlog2pα)
ofereça esse "comprimento de mensagem extra esperado", ao usar a codificação q para p .

No entanto, a maioria das definições de divergência de KL, incluindo a Wikipedia, faz a afirmação (mantendo-a em termos discretos para que possa ser comparada com a interpretação da teoria da informação que funciona muito melhor em termos discretos, pois os bits são discretos) que, se tivermos duas probabilidades distintas distribuições, a KL fornece algumas métricas de "quão diferentes elas são". Ainda estou para ver uma única explicação de como esses dois conceitos estão relacionados. Parece que me lembro em seu livro sobre inferência, Dave Mackay aponta como a compactação e inferência de dados são basicamente a mesma coisa, e suspeito que minha pergunta esteja realmente relacionada a isso.

Independentemente de ser ou não, o tipo de pergunta que tenho em mente é sobre problemas de inferência. (Mantendo as coisas discretas), se tivermos duas amostras radioativas, e sabemos que uma delas é um determinado material com radioatividade conhecida (isso é física dúbia, mas vamos fingir que o universo funciona assim) e, assim, sabemos a distribuição "verdadeira" dos cliques radioativos que devemos medir devem ser poissonianos com conhecido , é justo criar uma distribuição empírica para ambas as amostras e comparar suas divergências KL com a distribuição conhecida e dizer que menor é mais provável que seja esse material?λ

Afastar-me da física duvidosa, se eu souber que duas amostras são extraídas da mesma distribuição, mas eu sei que não são selecionadas aleatoriamente, compararia suas divergências de KL com a conhecida distribuição global, dando-me uma ideia de "quão tendenciosa" as amostras são , em relação a um e outro, afinal?

E, finalmente, se a resposta para as perguntas anteriores for sim, então por quê? É possível entender essas coisas apenas do ponto de vista estatístico, sem fazer nenhuma conexão (possivelmente tênue) à teoria da informação?

gazza89
fonte
1
Veja minha resposta aqui: stats.stackexchange.com/questions/188903/... que não se refere à teoria da informação
b Kjetil Halvorsen
1
A divergência de KL não é puramente um conceito teórico da informação? Eu sei que ele fornece informações mútuas entre um anterior e um posterior Bayesiano ou algo assim, e lembro-me de vê-lo uma vez no contexto de transformações / conjugados de Fenchel (teoria dos grandes desvios), mas, em qualquer caso, pensei que fosse um conceito teórico da informação .
Chill2Macht

Respostas:

23

Existe uma abordagem puramente estatística para a divergência de Kullback-Leibler: pegue uma amostra iid de uma distribuição desconhecida p e considere o ajuste potencial por uma família de distribuições, F = { p θX1,,Xnp A probabilidade correspondente é definida como L ( θ | x 1 , , x n ) = n i = 1 p θ ( x

F={pθ, θΘ}
e seu logaritmo é ( θ | x 1 , , x n ) = n i = 1 log p θ ( x i )
L(θ|x1,,xn)=i=1npθ(xi)
(θ|x1,,xn)=i=1nlogpθ(xi)
Portanto, que é a parte interessante da divergência de Kullback-Leibler entre p θ e p
1n(θ|x1,,xn)E[logpθ(X)]=logpθ(x)p(x)dx
pθp a outra parte log { p ( x ) }
H(pθ|p)=deflog{p(x)/pθ(x)}p(x)dx
estando lá para ter o mínimo [em θ ] de H ( p θ | p ) igual a zero.
log{p(x)}p(x)dx
θH(pθ|p)

Um livro que conecta divergência, teoria da informação e inferência estatística é a estimativa ótima de parâmetros de Rissanen , que revi aqui .

Xi'an
fonte
Alguma possibilidade de ver um exemplo numérico disso?
Paul Uszak
Bem, quero dizer ver alguns números reais. A teoria é fofa, mas o mundo funciona com números. Não existem exemplos de divergências de KL que usem números reais, então sou levado a concluir que é uma teoria sem aplicação possível. O OP discutiu o tamanho das mensagens em bits e a compactação de dados. Eu estava me referindo a qualquer exemplo, que teve um número de bits na mesma ...
Paul Uszak
2
@PaulUszak: se eu lhe disser que a distância Kullaback-Leibler entre uma distribuição N (0,1) e N (1,1) é 1/2, como isso ajuda?
Xi'an
2
@ Xi'an: Deve haver alguma conexão entre esse número 1/2 e a potência do teste da razão de verossimilhança correspondente?
precisa saber é o seguinte
7
+1 Re: comentário: A mente confunde o pensamento de que qualquer conceito que não possa ser reduzido a um "número de bits" é inútil.
whuber
8

Aqui está uma interpretação estatística da divergência Kullback-Leibler, extraída de IJ Good ( Peso da evidência: Uma breve pesquisa , Bayesian Statistics 2, 1985).

O peso da evidência.

Suponha que você observe os pontos de dados que você tem motivos para acreditar que são amostras independentes de alguma distribuição desconhecida com uma densidade f 0 . No caso mais simples, você tem duas hipóteses H 1 e H 2 sobre o que é f 0 , diga H 1 = { fx1,x2,,xnf0H1H2f0 e H 2 = { f 2 } . Assim, você modelou o desconhecido f 0H1={f1}H2={f2}f0como sendo um de ou f 2 .f1f2

O peso da evidência da amostra para H 1 contra H 2 é definido como W ( x ) = log f 1 ( x )x=(x1,,xn)H1H2 É uma quantidade fácil de interpretar, especialmente dado umPprévionas hipótesesH0eH1

W(x)=logf1(x)f2(x).
PH0H1 . De fato, nesse caso as probabilidades logarítmicas posteriores são mais as probabilidades logarítmicas anteriores: log P ( H 0 | x )W Essa quantidade também possui várias propriedades convenientes, como aditividade para amostras independentes: W(x1,,xn)=W(x1)++
logP(H0|x)P(H1|x)=W(x)+logP(H0)P(H1).
Good fornece uma justificativa adicional para o uso do peso da evidência, e W ( x ) também é referido por Kullback e Leibler (no artigo que introduziu a divergência de KL) como"as informações em x
W(x1,,xn)=W(x1)++W(xn).
W(x)xH1H2

Em resumo, dada uma amostra , o peso da evidênciaxW(x)W(x)>2

A divergência Kullback-Leibler

f1f2xf1

KL(f1,f2)=Exf1W(x)=f1logf1f2.

xf1H1={f1}H2

Exf1W(x)0.
Olivier
fonte
1

Ainda estou para ver uma única explicação de como esses dois conceitos estão relacionados.

Não sei muito sobre teoria da informação, mas é assim que penso: quando ouço uma pessoa da teoria da informação dizer "comprimento da mensagem", meu cérebro diz "surpresa". A surpresa é 1.) aleatória e 2.) subjetiva.

Xq(X)logq(X)

qXppEp[logp(X)]qpEp[logq(X)]

Em vez de pensar em "quão diferentes eles são", penso no "aumento da surpresa esperada pelo uso da distribuição errada". Isso tudo é das propriedades do logaritmo.

Ep[registro(p(X)q(X))]=Ep[-registroq(X)]-Ep[-registrop(X)]0

Editar

-registro(q(x))q

Xqx0 0-registro(0 0)=10 0

-registro

q(x)>1

XqX(x)Y=aX+bqx((yb)/a)|1/a|XlogqX(X)logqY(Y)

(XEX)2

Edit 2: parece que não sou o único que pensa nisso como "surpresa". A partir daqui :

yθ2log{p(yθ)}

Taylor
fonte
1
log(q(x))q
1
TT(X)=aXa0TT(x)xT(x)xlogqT(X)(T(x))>logqX(x)
(XE[X])2