Olhe para essa foto:
Se extrairmos uma amostra da densidade vermelha, espera-se que alguns valores sejam menores que 0,25, ao passo que é impossível gerar essa amostra a partir da distribuição azul. Como conseqüência, a distância Kullback-Leibler da densidade vermelha à densidade azul é infinito. No entanto, as duas curvas não são tão distintas, em algum "sentido natural".
Aqui está minha pergunta: existe uma adaptação da distância Kullback-Leibler que permita uma distância finita entre essas duas curvas?
kullback-leibler
ocram
fonte
fonte
Respostas:
Você pode ver o Capítulo 3 de Devroye, Gyorfi e Lugosi, Uma teoria probabilística do reconhecimento de padrões , Springer, 1996. Veja, em particular, a seção sobre divergências .f
ff divergências podem ser vistas como uma generalização de Kullback-Leibler (ou, alternativamente, a KL pode ser vista como um caso especial de uma divergência).f
A forma geral é
onde é uma medida que domina as medidas associadas com e e é uma função que satisfaça convexa . (Se e forem densidades em relação à medida de Lebesgue, basta substituir a notação por e você estará pronto.)p q f ( ⋅ ) f ( 1 ) = 0 p ( x ) q ( x ) d x λ ( d x )λ p q f(⋅) f(1)=0 p(x) q(x) dx λ(dx)
Recuperamos o KL usando . Podemos obter a diferença de Hellinger via e obtemos a variação total ou a distância assumindo. Este último dáf ( x ) = ( 1 - √f(x)=xlogx L1f(x)= 1f(x)=(1−x−−√)2 L1 f(x)=12|x−1|
Observe que este último, pelo menos, fornece uma resposta finita.
Em outro pequeno livro chamado Density Estimation: The ViewL1 , Devroye defende fortemente o uso dessa última distância devido às suas muitas propriedades agradáveis de invariância (entre outras). Este último livro é provavelmente um pouco mais difícil de entender do que o anterior e, como o título sugere, um pouco mais especializado.
Adendo : Por meio dessa pergunta , percebi que parece que a medida que @Didier propõe é (até uma constante) conhecida como divergência de Jensen-Shannon. Se você seguir o link para a resposta fornecida nessa pergunta, verá que a raiz quadrada dessa quantidade é na verdade uma métrica e foi anteriormente reconhecida na literatura como um caso especial de divergência . Achei interessante que parecemos ter "reinventado" coletivamente a roda (muito rapidamente) através da discussão desta questão. A interpretação que dei no comentário abaixo, a resposta de @ Didier também foi anteriormente reconhecida. Por toda parte, meio arrumado, na verdade.f
fonte
A divergência de Kullback-Leibler de em relação a é infinita quando não é absolutamente contínua em relação a , ou seja, quando existe um conjunto mensurável tal que e . Além disso, a divergência de KL não é simétrica, no sentido de que em geral . Lembre-se de que Uma saída para esses dois inconvenientes, ainda baseados na divergência de KL, é introduzir o ponto médio AssimP Q P Q O Q ( A ) = 0 P ( A ) ≠ 0 κ ( P | Q ) ≠ κ ( Q | P ) κ ( P | Q ) = ∫ P log ( Pκ(P|Q) P Q P Q A Q(A)=0 P(A)≠0 κ(P∣Q)≠κ(Q∣P) R=1
Uma formulação equivalente é
Adendo 1 A introdução do ponto médio de e não é arbitrária no sentido de que onde o mínimo está acima do conjunto de medidas de probabilidade.P Q
Adendo 2 @ cardinal observa que também é uma divergência , para a função convexaη f ( x ) = x log ( x ) - ( 1 + x ) log ( 1 + x ) + ( 1 + x ) log ( 2 ) .f
fonte
A distância de Kolmogorov entre duas distribuições e é a norma de suas CDFs. (Essa é a maior discrepância vertical entre os dois gráficos das CDFs.) É usada em testes de distribuição em que é uma distribuição hipotética e é a função de distribuição empírica de um conjunto de dados.P Q P Q
É difícil caracterizar isso como uma "adaptação" da distância KL, mas atende aos outros requisitos de ser "natural" e finito.
Aliás, porque a divergência KL não é uma verdadeira "distância", não precisamos nos preocupar em preservar todas as propriedades axiomáticas de uma distância. Podemos manter a propriedade não-negatividade ao fazer os valores finitos através da aplicação de qualquer transformação monotônica por algum valor finito . A tangente inversa funcionará bem, por exemplo.R+→[0,C] C
fonte
Sim, Bernardo e Reuda definiram algo chamado "discrepância intrínseca" que, para todos os efeitos, é uma versão "simétrica" da divergência KL. Considerando que a divergência KL de para é A discrepância intrínseca é dada por:Q κ ( P ∣ Q )P Q κ(P∣Q)
A pesquisa de discrepância intrínseca (ou critério de referência bayesiano) fornecerá alguns artigos sobre essa medida.
No seu caso, você pegaria a divergência KL, que é finita.
Outra medida alternativa à KL é a distância de Hellinger
EDIT: esclarecimento, alguns comentários levantados sugerem que a discrepância intrínseca não será finita quando uma densidade 0 quando a outra não. Isso não é verdade se a operação de avaliação da densidade zero for realizada como um limite ou . O limite está bem definido e é igual a para uma das divergências KL, enquanto a outra divergirá. Para ver esta nota:Q→0 P→0 0
Tomando o limite como sobre uma região da integral, a segunda integral diverge e a primeira integral converge para nessa região (assumindo que as condições sejam tais que se possa trocar limites e integração). Isso ocorre porque . Devido à simetria em e o resultado também é válido para .P→0 0 limz→0zlog(z)=0 P Q Q
fonte