Divergência de Jensen Shannon vs Divergência de Kullback-Leibler?

14

Eu sei que a divergência KL não é simétrica e não pode ser estritamente considerada uma métrica. Se sim, por que é usado quando o JS Divergence satisfaz as propriedades necessárias para uma métrica?

Existem cenários em que a divergência de KL pode ser usada, mas não a JS Divergence ou vice-versa?

probability distributions kullback-leibler metric user2761431
fonte

Ambos são usados, apenas isso depende do contexto. Quando fica claro que é necessário ter uma métrica rigorosa, por exemplo, quando o cluster é concluído, o JS é uma opção mais preferível. Por outro lado, na seleção de modelos, o uso de AIC baseado em KL é generalizado. Os pesos de Akaike têm uma boa interpretação para a qual JS não pode fornecer uma contrapartida ou ainda não se tornou popular.

James

5

Encontrei uma resposta muito madura no Quora e coloquei aqui para as pessoas que a procuram aqui:

$𝐾𝐿[𝑞;𝑝]$ $𝑞(𝑥)$ $𝑝(𝑥)$

$𝑝(𝑥)$ $𝑞(𝑥)$ $𝑝(𝑥)$ $𝑞(𝑥)$ $𝑞(𝑥)𝑙𝑜𝑔[𝑞(𝑥)/𝑝(𝑥)]$ $𝑝(𝑥)$ $𝑝(𝑥)$ $𝑞(𝑥)$ $𝑞(𝑥)$ $𝐾𝐿[𝑞;𝑝]$ $𝑞(𝑥)$ $𝑝(𝑥)$

$𝑝(𝑥)$ $𝑞(𝑥)$ $𝑞(𝑥)$ $𝑝(𝑥)$

moh
fonte

1

A divergência de KL tem clara interpretação teórica da informação e é bem conhecida; mas sou a primeira vez que ouço que a simetrização da divergência de KL é chamada de divergência de JS. A razão pela qual a divergência de JS não é usada com tanta frequência é provavelmente pelo fato de ser menos conhecida e não oferecer propriedades obrigatórias.

James LI
fonte

Divergência de Jensen Shannon vs Divergência de Kullback-Leibler?

Respostas: