Distância Pros of Jeffries Matusita

11

De acordo com algum artigo que estou lendo, a distância de Jeffries e Matusita é comumente usada. Mas não consegui encontrar muita informação, exceto a fórmula abaixo

JMD (x, y) =(xi2yi2)22

É semelhante à distância euclidiana, exceto pela raiz quadrada

E (x, y) =(xiyi)22

A distância JM é reivindicada como mais confiável que a distância euclidiana em termos de classificação. Alguém pode explicar por que essa diferença melhora a distância JM?

romy_ngo
fonte
11
Não consigo encontrar uma referência autorizada que use essa fórmula para a distância Jeffries-Matusita. As fórmulas que encontro são baseadas em matrizes de covariância para duas classes e parecem não ter relação com a dada aqui, mas parece que pode haver duas (ou mais) coisas diferentes conhecidas por esse nome. Você poderia fornecer uma referência ou (ainda melhor) um link? Aliás, xi e yi contam por acaso? (Em caso afirmativo, existe uma interpretação natural de sua fórmula.)
whuber
11
@whuber: talvez o e y são substituí- p ( x ) e q ( x )xyp(x)q(x)
user603
@ user603 Sim, acho que você conseguiu. Agora as conexões com as divergências de KL e a medida Battacharyya se tornam aparentes.
whuber

Respostas:

14

Algumas diferenças importantes, que precedem uma explicação mais longa abaixo, são as seguintes:

  1. Fundamentalmente: a distância de Jeffries-Matusita se aplica a distribuições, e não a vetores em geral.
  2. A fórmula de distância JM citada acima se aplica apenas a vetores que representam distribuições de probabilidade discretas (ou seja, vetores que somam 1).
  3. Diferentemente da distância euclidiana, a distância JM pode ser generalizada para qualquer distribuição para a qual a distância Bhattacharrya possa ser formulada.
  4. A distância JM tem, através da distância Bhattacharrya, uma interpretação probabilística.

bp,q[0,inf)[0,2]

JMp,q=2(1exp(b(p,q))

Uma vantagem prática da distância JM, de acordo com este artigo, é que esta medida "tende a suprimir altos valores de separabilidade, enfatizando excessivamente os baixos valores de separabilidade".

As medidas Bhattacharrya distância a dissimilaridade de duas distribuições de e o seguinte sentido contínuo resumo: Se o distribuições e são capturados por histogramas, representados por vetores de comprimento unitário (em que o ésimo elemento é a contagem normalizada de és de posições), isto se torna: E, consequentemente, a distância JM para os dois histogramas é: Qual, observando isso para histogramas normalizadospq

b(p,q)=lnp(x)q(x)dx
pqiiN
b(p,q)=lni=1Npiqi
JMp,q=2(1i=1Npiqi)
ipi=1, é igual à fórmula que você forneceu acima:
JMp,q=i=1N(piqi)2=i=1N(pi2piqi+qi)=2(1i=1Npiqi)
rroowwllaanndd
fonte
+1 Muito obrigado por participar e fazer esse esforço muito bem feito para esclarecer a situação.
whuber