A forma mais simples da CLT teórica da informação é a seguinte:
Seja como iid com média e variação . Seja a densidade da soma normalizada e seja a densidade gaussiana padrão. Então o CLT teórico da informação afirma que, se é finito para alguns n , então D (f_n \ | \ phi) \ para 0 como n \ to \ infty .
Certamente, essa convergência, em certo sentido, é "mais forte" do que as convergências bem estabelecidas na literatura, convergência em distribuição e convergência em -métrica, graças à desigualdade de Pinsker . Ou seja, convergência na divergência KL implica convergência na distribuição e convergência na distância .
Eu gostaria de saber duas coisas.
O que há de tão bom no resultado ?
É apenas por causa do motivo declarado no terceiro parágrafo que dizemos que a convergência na divergência KL ( ou seja , ) é mais forte?
NB: Eu fiz essa pergunta há algum tempo em math.stackexchange, onde não obtive resposta.
Respostas:
Uma coisa que é ótima com esse teorema é que ele sugere teoremas de limite em algumas situações em que o teorema do limite central usual não se aplica. Por exemplo, em situações em que a distribuição máxima de entropia é alguma distribuição não normal, como para distribuições no círculo, sugere convergência para uma distribuição uniforme.
fonte
Depois de olhar em volta, não consegui encontrar nenhum exemplo de convergência na distribuição sem convergência na entropia relativa; portanto, é difícil medir a "grandeza" desse resultado.
Para mim, parece que esse resultado simplesmente descreve a entropia relativa dos produtos de convolução. Ele é frequentemente visto como uma estrutura alternativa de interpretação e prova do Teorema do Limite Central, e não tenho certeza de que tenha uma implicação direta na teoria da probabilidade (mesmo que na teoria da informação).
De Teoria da informação e Teorema do limite central (página 19).
fonte
Sobre o segundo ponto que você indicou, ele respondeu em seu parágrafo.
fonte