Divergência de Jensen Shannon vs Divergência de Kullback-Leibler?

14

Eu sei que a divergência KL não é simétrica e não pode ser estritamente considerada uma métrica. Se sim, por que é usado quando o JS Divergence satisfaz as propriedades necessárias para uma métrica?

Existem cenários em que a divergência de KL pode ser usada, mas não a JS Divergence ou vice-versa?

user2761431
fonte
Ambos são usados, apenas isso depende do contexto. Quando fica claro que é necessário ter uma métrica rigorosa, por exemplo, quando o cluster é concluído, o JS é uma opção mais preferível. Por outro lado, na seleção de modelos, o uso de AIC baseado em KL é generalizado. Os pesos de Akaike têm uma boa interpretação para a qual JS não pode fornecer uma contrapartida ou ainda não se tornou popular.
James

Respostas:

5

Encontrei uma resposta muito madura no Quora e coloquei aqui para as pessoas que a procuram aqui:

𝐾𝐿[𝑞;𝑝]𝑞(𝑥)𝑝(𝑥)

𝑝(𝑥)𝑞(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑙𝑜𝑔[𝑞(𝑥)/𝑝(𝑥)]𝑝(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝐾𝐿[𝑞;𝑝]𝑞(𝑥)𝑝(𝑥)

𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑝(𝑥)

moh
fonte
1

A divergência de KL tem clara interpretação teórica da informação e é bem conhecida; mas sou a primeira vez que ouço que a simetrização da divergência de KL é chamada de divergência de JS. A razão pela qual a divergência de JS não é usada com tanta frequência é provavelmente pelo fato de ser menos conhecida e não oferecer propriedades obrigatórias.

James LI
fonte