Clustering: Devo usar a divergência Jensen-Shannon ou seu quadrado?

15

Estou agrupando distribuições de probabilidade usando o algoritmo de Afinidade de Propagação e planejo usar a Densidade de Jensen-Shannon como métrica de distância.

É correto usar o próprio JSD como a distância ou o JSD ao quadrado? Por quê? Que diferenças resultariam da escolha de um ou outro?

AlcubierreDrive
fonte

Respostas:

20

Eu acho que depende de como deve ser usado.

PQ

J(P,Q)=12(D(P∣∣R)+D(Q∣∣R))
where R=12(P+Q) is the mid-point measure and D(∣∣) is the Kullback-Leibler divergence.

Agora, eu ficaria tentado a usar a raiz quadrada da divergência Jensen-Shannon, pois é uma métrica, i.e. it satisfies all the "intuitive" properties of a distance measure.

Para mais detalhes sobre isso, consulte

Endres e Schindelin, uma nova métrica para distribuições de probabilidade , IEEE Trans. em Info. Teus. vol. 49, n. 3, jul. 2003, pp. 1858-1860.

É claro que, em certo sentido, depende do que você precisa. Se tudo o que você está usando é avaliar alguma medida emparelhada, qualquer transformação monotônica de JSD funcionaria. Se você está procurando algo mais próximo de uma "distância ao quadrado", o JSD em si é a quantidade análoga.

Incidentally, you might also be interested in this previous question and the associated answers and discussions.

cardinal
fonte
Cool, I will read "a new metric for probability distribution" as soon as possible. Txh
ocram
Thanks! I didn't realize that JSD itself is already analogous to dist**2
AlcubierreDrive
Thanks for the great explanation! Just a quick question. I know J-Divergence is symmetric in that J(P,Q) = J(Q,P). I read that JS divergence is symmetric in P and Q. Does this mean JS(P,Q) = JS(Q,P)? I am asking this because I am using the KLdiv function from the flexmix package in R. For my two distributions, the matrix output from KLdiv is not symmetric. I was expecting JS to correct this but the output from JS (computed using KL) is not symmetric.
Legend
1
@Legend: Yes, the JS divergence is symmetric. Hopefully that is easy to see from the equation given in the answer. Make sure that you are taking the KL divergence between P and the midpoint measure and Q and the midpoint measure for each of the two terms. Separately, neither will be symmetric, necessarily.
cardinal