Por que a divergência KL não é negativa?
Da perspectiva da teoria da informação, tenho uma compreensão tão intuitiva:
Digamos que existem dois conjuntos e que são compostos do mesmo conjunto de elementos rotulados por . e são distribuições de probabilidade diferentes sobre o conjunto e respectivamente.
Do ponto de vista da teoria da informação, é a menor quantidade de bits requerida para que a gravação de um elemento para ensemble . De modo que a expectativa
Como essa fórmula coloca um limite inferior nos bits de que precisamos, em média, de modo que, para um conjunto diferente que gera uma distribuição de probabilidade diferente , o limite que ele fornece para cada elemento certamente não irá morder. dada por , o que significa tomar a expectativa,
Eu não coloquei≥aqui, poisp(x)eq(x)são diferentes.
Esta é a minha compreensão intuitiva, existe uma maneira puramente matemática de provar que a divergência de KL não é negativa? O problema pode ser afirmado como:
Dado que e q ( x ) são positivos acima da linha real, e ∫ + ∞ - ∞ p ( x ) d x = 1 , ∫ + ∞ - ∞ q ( x ) d x = 1 . Prove ∫ + ∞ - ∞ p ( x ) ln p ( x ) não é negativo.
Como isso pode ser provado? Ou isso pode ser provado sem condições extras?
fonte
Respostas:
Prova 1:
Primeira nota que para todos a > 0 .lna≤a−1 a>0
Agora mostraremos que que significa que D K L ( p | | q ) ≥ 0−DKL(p||q)≤0 DKL(p||q)≥0
A razão pela qual não incluo isso como uma prova separada é porque, se você me pedisse para provar a desigualdade de Gibbs, teria que começar pela não-negatividade da divergência de KL e fazer a mesma prova do topo.
where we have used the Log sum inequality at (b).
Proof 3:
(Taken from the book "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas)
where at (c) we have used Jensen's inequality and the fact thatlog is a concave function.
fonte