Divergência de Jensen-Shannon para distribuições normais bivariadas

8

Dadas duas distribuições normais bivariadas e , estou tentando calcular a divergência de Jensen-Shannon entre elas, definido (para o caso discreto) como: que KLD é a divergência Kullback-Leibler e M = \ frac {1} {2} (P + Q) Encontrei a maneira de calcular KLD em termos de parâmetros das distribuições e, portanto, JSD . PN(μp,Σp)QN(μq,Σq)JSD(PQ)=12(KLD(PM)+KLD(QM))KLDM=12(P+Q)
KLDJSD

Minhas dúvidas são:

  1. Para calcular M , eu apenas fiz MN(12(μp+μq),12(Σp+Σq)) . Isto está certo?

  2. Eu li em [ 1 ] que o JSD é limitado, mas isso não parece ser verdade quando o calculo como descrito acima para distribuições normais. Significa que estou calculando errado, violando uma suposição ou outra coisa que não entendo?

jorges
fonte

Respostas:

8

A medida do ponto médio é uma distribuição de mistura dos dois normais normais multivariados, portanto, não possui a forma que você fornece na postagem original. Seja a função de densidade de probabilidade de um vetor aleatório e seja o pdf de . Então o pdf da medida do ponto médio é Mφp(x)N(μp,Σp)φq(x)N(μq,Σq)

φm(x)=12φp(x)+12φq(x).

A divergência de Jensen-Shannon é onde indica o (diferencial) entropia correspondente à medida .

JSD=12(KL(PM)+KL(QM))=h(M)12(h(P)+h(Q)),
h(P)P

Assim, seu cálculo se reduz ao cálculo de entropias diferenciais. Para o normal multivariado , a resposta é bem conhecida como e a prova pode ser encontrada em qualquer número de fontes, por exemplo, Cover e Thomas (1991), pp. 230-231. Vale ressaltar que a entropia de uma normal multivariada é invariável em relação à média, como mostra a expressão acima. No entanto, isso quase certamente não passa para o caso de uma mistura de normais. (Pense em escolher um normal largo centralizado em zero e outro normal concentrado, onde este último é empurrado para longe da origem.)N(μ,Σ)

12log2((2πe)n|Σ|)

Para a medida do ponto médio, as coisas parecem ser mais complicadas. Que eu saiba, não há expressão de forma fechada para a entropia diferencial . A pesquisa no Google gera alguns hits em potencial, mas os principais não parecem fornecer formulários fechados no caso geral. Você pode ficar preso em aproximar essa quantidade de alguma forma.h(M)

Observe também que o documento que você faz referência não restringe o tratamento apenas a distribuições discretas. Eles tratam um caso geral o suficiente para que seu problema se enquadre na estrutura deles. Veja o meio da coluna dois na página 1859. Aqui também é mostrado que a divergência é limitada. Isso vale para o caso de duas medidas gerais e não se restringe ao caso de duas distribuições discretas.

A divergência Jensen-Shannon surgiu algumas vezes recentemente em outras perguntas neste site. Veja aqui e aqui .


Adendo : Observe que uma mistura de normais não é a mesma que uma combinação linear de normais. A maneira mais simples de ver isso é considerar o caso unidimensional. Deixe e e deixe que sejam independentes um do outro. Em seguida, uma mistura das duas normais usando pesos para tem a distribuição X1N(μ,1)X2N(μ,1)(α,1α)α(0,1)

φm(x)=α12πe(x+μ)22+(1α)12πe(xμ)22.

A distribuição de uma combinação linear de e usando os mesmos pesos de antes é, através da propriedade estável da distribuição normal, que .X1X2

φ(x)=12πσ2e(x(12α)μ)22σ2,
σ2=α2+(1α)2

Essas duas distribuições são muito diferentes, embora tenham a mesma média. Isso não é um acidente e decorre da linearidade das expectativas.

Para entender a distribuição da mistura, imagine que você teve que procurar um consultor estatístico para que ela pudesse produzir valores dessa distribuição para você. Ela possui uma realização de em uma palma e uma realização de na outra palma (embora você não saiba em qual das duas palmas cada uma está). Agora, sua assistente lança uma moeda tendenciosa com probabilidade fora de vista e depois sussurra o resultado no ouvido do estatístico. Ela abre uma das palmas e mostra a realização, mas não informa o resultado do lançamento da moeda. Este processo produz a distribuição da mistura.X1X2α

Por outro lado, a combinação linear pode ser entendida no mesmo contexto. O consultor estatístico apenas pega as duas realizações, multiplica a primeira por e a segunda por , adiciona o resultado e mostra a você.α(1α)

cardeal
fonte
Obrigado pela sua resposta. Portanto, meu problema está na (como calculei) a distribuição do ponto médio. Por favor, desculpe minha ignorância se estiver fazendo uma pergunta óbvia, mas como a distribuição do ponto médio é diferente da soma das variáveis ​​aleatórias normalmente distribuídas ? É porque estamos em um caso bi-variável?
Jorges
2
@jorges A soma será normal e, portanto, simétrica em relação a um único modo. Quando os dois meios estão suficientemente afastados (em comparação com os seus DS), a distribuição da mistura é bimodal . Em nenhuma circunstância a mistura é normal, exceto nos casos degenerados (médias iguais e DPs iguais). Isso também é aparente na fórmula para : essa média de exponenciais não pode ser escrita como exponencial de uma forma quadrática. φm
whuber
@ whuber e cardeal: Embora intuitivamente eu entenda o que você diz, pareço estar tendo um problema sério com conceitos. Não sou realmente estatístico e acho que estou misturando "soma de variáveis ​​aleatórias" com "distribuição de mistura". Na verdade, não estou contestando o que o cardeal e você respondeu, mas tentando entender a diferença e quando usá-la, pois eu posso estar cometendo erros semelhantes em outros lugares. Vou voltar a ler e ver se consigo me esclarecer. Obrigado por suas respostas.
Jorges
2

A resposta do cardeal está correta. Você está tentando obter uma solução de forma fechada para a divergência Jensen-Shannon de dois gaussianos; não existe tal solução.

No entanto, você pode calcular Jensen-Shannon com precisão arbitrária usando a amostragem de Monte Carlo. O que você precisa é de uma maneira de calcular e, por extensão, . A divergência Kullback-Leibler é definida como:KLD(P|M)KLD(Q|M)

KLD(P|M)=P(x)log(P(x)M(x))dx

A aproximação de Monte Carlo disso é:

KLDapprox(P|M)=1ninlog(P(xi)M(xi))

onde o foi amostrado de , o que é fácil, pois é um gaussiano no seu caso. Como , . pode ser calculado como .xiP(x)nKLDapprox(P|M)KLD(P|M)M(xi)M(xi)=12P(xi)+12Q(xi)

FrankD
fonte
HI @FrankD - Tentei implementar sua sugestão aqui: stats.stackexchange.com/questions/345915/… embora eu não ache exatamente o que você quis dizer. Ponteiros são bem-vindos.
Astrid