Uma adaptação da distância Kullback-Leibler?

28

Olhe para essa foto: insira a descrição da imagem aqui

Se extrairmos uma amostra da densidade vermelha, espera-se que alguns valores sejam menores que 0,25, ao passo que é impossível gerar essa amostra a partir da distribuição azul. Como conseqüência, a distância Kullback-Leibler da densidade vermelha à densidade azul é infinito. No entanto, as duas curvas não são tão distintas, em algum "sentido natural".

Aqui está minha pergunta: existe uma adaptação da distância Kullback-Leibler que permita uma distância finita entre essas duas curvas?

ocram
fonte
1
Em que "sentido natural" essas curvas "não são tão distintas"? Como essa proximidade intuitiva está relacionada a qualquer propriedade estatística? (Eu posso pensar em várias respostas, mas estou querendo saber o que você tem em mente.)
whuber
1
Bem ... eles são bem próximos um do outro no sentido de que ambos são definidos em valores positivos; ambos aumentam e depois diminuem; ambos têm realmente a mesma expectativa; e a distância de Kullback Leibler é "pequena" se restringirmos a uma parte do eixo x ... Mas, para vincular essas noções intuitivas a qualquer propriedade estatística, eu precisaria de uma definição rigorosa para esses recursos ...
ocram

Respostas:

18

Você pode ver o Capítulo 3 de Devroye, Gyorfi e Lugosi, Uma teoria probabilística do reconhecimento de padrões , Springer, 1996. Veja, em particular, a seção sobre divergências .f

ff divergências podem ser vistas como uma generalização de Kullback-Leibler (ou, alternativamente, a KL pode ser vista como um caso especial de uma divergência).f

A forma geral é

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

onde é uma medida que domina as medidas associadas com e e é uma função que satisfaça convexa . (Se e forem densidades em relação à medida de Lebesgue, basta substituir a notação por e você estará pronto.)p q f ( ) f ( 1 ) = 0 p ( x ) q ( x ) d x λ ( d x )λpqf()f(1)=0p(x)q(x)dxλ(dx)

Recuperamos o KL usando . Podemos obter a diferença de Hellinger via e obtemos a variação total ou a distância assumindo. Este último dáf ( x ) = ( 1 - f(x)=xlogxL1f(x)= 1f(x)=(1x)2L1f(x)=12|x1|

DTV(p,q)=12|p(x)q(x)|dx

Observe que este último, pelo menos, fornece uma resposta finita.

Em outro pequeno livro chamado Density Estimation: The ViewL1 , Devroye defende fortemente o uso dessa última distância devido às suas muitas propriedades agradáveis ​​de invariância (entre outras). Este último livro é provavelmente um pouco mais difícil de entender do que o anterior e, como o título sugere, um pouco mais especializado.


Adendo : Por meio dessa pergunta , percebi que parece que a medida que @Didier propõe é (até uma constante) conhecida como divergência de Jensen-Shannon. Se você seguir o link para a resposta fornecida nessa pergunta, verá que a raiz quadrada dessa quantidade é na verdade uma métrica e foi anteriormente reconhecida na literatura como um caso especial de divergência . Achei interessante que parecemos ter "reinventado" coletivamente a roda (muito rapidamente) através da discussão desta questão. A interpretação que dei no comentário abaixo, a resposta de @ Didier também foi anteriormente reconhecida. Por toda parte, meio arrumado, na verdade.f

cardeal
fonte
1
Muito agradável! Vou tentar encontrar "Uma teoria probabilística do reconhecimento de padrões" e entender seu capítulo 3!
Ocram
1
boa resposta, observe que na maioria das vezes é definido de outra maneira, o que faz com que ela fique na metade da distância . L 1DTVL1
22611 robin girard
1
@robin, obrigado pelo seu comentário. Sim, eu percebo isso. Eu estava apenas tentando evitar uma constante estranha e confusa na exposição. Mas, estritamente falando, você está correto. Eu atualizei de acordo.
cardeal
3
Seu adendo é a informação mais útil que encontrei no stats.SE, até agora. Meus sinceros agradecimentos por isso. Simplesmente reproduzo aqui a referência que você forneceu: research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/… Endres e Schindelin, Uma nova métrica para distribuições de probabilidade, IEEE Trans. em Info. Teus. vol. 49, n. 3, jul. 2003, pp. 1858-1860.
Será que
1
@ Didier, bem, foi mais um acidente feliz do que qualquer outra coisa. Ninguém estava respondendo à outra pergunta, então decidi tentar descobrir qual era a divergência Jensen-Shannon em primeiro lugar. Depois de encontrar a definição, parecia razoável conectar as duas perguntas através do meu adendo. Fico feliz que você tenha achado útil. Saudações.
cardeal
19

A divergência de Kullback-Leibler de em relação a é infinita quando não é absolutamente contínua em relação a , ou seja, quando existe um conjunto mensurável tal que e . Além disso, a divergência de KL não é simétrica, no sentido de que em geral . Lembre-se de que Uma saída para esses dois inconvenientes, ainda baseados na divergência de KL, é introduzir o ponto médio AssimP Q P Q O Q ( A ) = 0 P ( A ) 0 κ ( P | Q ) κ ( Q | P ) κ ( P | Q ) = P log ( Pκ(P|Q)PQPQAQ(A)=0P(A)0κ(PQ)κ(QP)R=1

κ(PQ)=Plog(PQ).
RPQRPQRη(P,Q)=κ(PR)+κ(QR). η(P,Q)PQηη(P,Q)=η(Q,P)PQη(
R=12(P+Q).
Ré uma medida de probabilidade, e e são sempre absolutamente contínua no que diz respeito a . Portanto, pode-se considerar uma "distância" entre e , ainda com base na divergência KL, mas usando , definido como Então é não-negativo e finito para todo e , é simétrico no sentido em que para cada e , e sse .PQRPQR
η(P,Q)=κ(PR)+κ(QR).
η(P,Q)PQηη(P,Q)=η(Q,P)PQP = Qη(P,Q)=0P=Q

Uma formulação equivalente é

η(P,Q)=2log(2)+(Plog(P)+Qlog(Q)(P+Q)log(P+Q)).

Adendo 1 A introdução do ponto médio de e não é arbitrária no sentido de que onde o mínimo está acima do conjunto de medidas de probabilidade.PQ

η(P,Q)=min[κ(P)+κ(Q)],

Adendo 2 @ cardinal observa que também é uma divergência , para a função convexa ηf ( x ) = x log ( x ) - ( 1 + x ) log ( 1 + x ) + ( 1 + x ) log ( 2 ) .f

f(x)=xlog(x)(1+x)log(1+x)+(1+x)log(2).
fez
fonte
2
@Marco, @Didier Piau, pode-se notar que a sugestão de @ Didier é outro caso especial de divergência que . f ( x ) = x log x - ( 1 + x ) log ( 1 + xff(x)=xlogx(1+x)log(1+x2)
cardeal
1
@Marco, @Didier Piau, uma formulação alternativa de natureza evocativa é e assim onde . Em outras palavras, é "diferença entre a entropia da medida média e a entropia média das medidas ".η(P,Q)=PlogP+QlogQ2RlogR=2H(R)(H(P)+H(Q))η(P,Q)=2(H(μ(P,Q))μ(H(P),H(Q))μ(x,y)=x+y212η(P,Q)
cardeal
3
Não é apenas a divergência Jensen-Shannon?
Memming
Parece ser .
Será que
"onde o mínimo está acima do conjunto de medidas de probabilidade." Gosto dessa caracterização da divergência Jensen-Shannon. Existe uma prova disso em algum lugar?
user76284
10

A distância de Kolmogorov entre duas distribuições e é a norma de suas CDFs. (Essa é a maior discrepância vertical entre os dois gráficos das CDFs.) É usada em testes de distribuição em que é uma distribuição hipotética e é a função de distribuição empírica de um conjunto de dados.PQPQ

É difícil caracterizar isso como uma "adaptação" da distância KL, mas atende aos outros requisitos de ser "natural" e finito.

Aliás, porque a divergência KL não é uma verdadeira "distância", não precisamos nos preocupar em preservar todas as propriedades axiomáticas de uma distância. Podemos manter a propriedade não-negatividade ao fazer os valores finitos através da aplicação de qualquer transformação monotônica por algum valor finito . A tangente inversa funcionará bem, por exemplo.R+[0,C]C

whuber
fonte
1
Obrigado pela sua sugestão sobre a distância Kolmogorov. Você pode deixar seu comentário sobre a transformação monotônica um pouco mais explícito? Thx
ocram
1
@ Marco Eu não entendo como alguém poderia ser mais explícito. Você quer dizer reafirmar o que escrevi em termos de uma fórmula como ou para com implica para todos ? f ( K L ( P , Q ) ) f : R +[ 0 , C ] x y f ( x ) f ( y ) x , y 0arctan(KL(P,Q))f(KL(P,Q))f:R+[0,C]xyf(x)f(y)x,y0
whuber
1
Sim, foi isso que eu quis dizer :-) Eu não tinha certeza do que aplicar a transformação. Agora, está claro, thx
ocram
1
@Marco: estou perdido. Você concorda com a distância de Kolmogorov (que é sempre finita, mas não tem nada em comum com a divergência de KL)? Ou para uma transformação monótona limitada da divergência de KL (como )? No exemplo da sua postagem (e em qualquer outro exemplo não absolutamente contínuo ), a última produz o supremo da transformação ( se você se contentar com ). Com efeito, isso abandona qualquer idéia de estimar uma distância entre essas medidas de probabilidade mais precisamente do que dizer que elas estão muito longe (se você a codifica por ou por é irrelevante). π / 2 arctan π / 2 + arctanπ/2arctanπ/2+
Fiz
@Didier Sim, a divergência transformada de KL (quando simétrica, como você descreve) pode não satisfazer a desigualdade do triângulo e, portanto, não seria uma distância, mas ainda definiria uma topologia (que provavelmente seria metrizável). Você daria assim pouco ou nada. Continuo agnóstico quanto ao mérito de fazer algo disso: parece-me que essa é apenas uma maneira de ocultar as dificuldades associadas aos valores infinitos da divergência KL em primeiro lugar.
whuber
2

Sim, Bernardo e Reuda definiram algo chamado "discrepância intrínseca" que, para todos os efeitos, é uma versão "simétrica" ​​da divergência KL. Considerando que a divergência KL de para é A discrepância intrínseca é dada por:Q κ ( P Q )PQκ(PQ)

δ(P,Q)min[κ(PQ),κ(QP)]

A pesquisa de discrepância intrínseca (ou critério de referência bayesiano) fornecerá alguns artigos sobre essa medida.

No seu caso, você pegaria a divergência KL, que é finita.

Outra medida alternativa à KL é a distância de Hellinger

EDIT: esclarecimento, alguns comentários levantados sugerem que a discrepância intrínseca não será finita quando uma densidade 0 quando a outra não. Isso não é verdade se a operação de avaliação da densidade zero for realizada como um limite ou . O limite está bem definido e é igual a para uma das divergências KL, enquanto a outra divergirá. Para ver esta nota:Q0 P0 0

δ(P,Q)min[Plog(PQ),Qlog(QP)]

Tomando o limite como sobre uma região da integral, a segunda integral diverge e a primeira integral converge para nessa região (assumindo que as condições sejam tais que se possa trocar limites e integração). Isso ocorre porque . Devido à simetria em e o resultado também é válido para .P00limz0zlog(z)=0PQQ

probabilityislogic
fonte
1
Até a "discrepância intrínseca" será infinita quando for zero com probabilidade positiva para e vice-versa, mesmo que e sejam idênticos. PQPQ
whuber
1
Sim ... Receio que a discrepância intrínseca não preencha o requisito. Mas obrigado pela sugestão. Qualquer outra sugestão seria apreciada.
Ocram
1
Ele faz cumprir a exigência, se você restringir o apoio da densidade azul para estar onde ele tem suporte estritamente positivo, assim como você tem para o vermelho (> 0)
probabilityislogic
3
@probabilityislogic: Eu não entendo suas últimas observações. Primeiro, vamos dar seus nomes próprios às noções envolvidas e dizer que é absolutamente contínuo em relação a (denominado ) se, para cada mensurável , implica . Agora, não obstante as suas considerações limite tanto misterioso (para mim), seu é finito sse ou . ... / ...PQPQAQ(A)=0P(A)=0δ(P,Q)PQQP
Fez
2
... / ... A maneira de sair do dilema você parece ser cavado poderia ser a de introduzir a medida do ponto médio . Como e , a quantidade é sempre finita. Além disso, se e forem simétricos. Daí , de facto mede uma espécie de "distância" entre e . P P + Q Q P + Q η ( P , Q ) : = κ ( P | P + Q ) + κ ( Q | P + Q ) η ( P , Q ) = 0 P = Q η η ( P , Q ) P QP+QPP+QQP+Qη(P,Q):=κ(P|P+Q)+κ(Q|P+Q)η(P,Q)=0P=Qηη(P,Q)PQ
Fiz