Teorema do limite central da teoria da informação

11

A forma mais simples da CLT teórica da informação é a seguinte:

Seja como iid com média e variação . Seja a densidade da soma normalizada e seja a densidade gaussiana padrão. Então o CLT teórico da informação afirma que, se é finito para alguns n , então D (f_n \ | \ phi) \ para 0 como n \ to \ infty .X1,X2,01fni=1nXinϕD(fnϕ)=fnlog(fn/ϕ)dxnD(fnϕ)0n

Certamente, essa convergência, em certo sentido, é "mais forte" do que as convergências bem estabelecidas na literatura, convergência em distribuição e convergência em L1 -métrica, graças à desigualdade de Pinsker (|fnϕ|)22fnlog(fn/ϕ) . Ou seja, convergência na divergência KL implica convergência na distribuição e convergência na distância L1 .

Eu gostaria de saber duas coisas.

  1. O que há de tão bom no resultado D(fnϕ)0 ?

  2. É apenas por causa do motivo declarado no terceiro parágrafo que dizemos que a convergência na divergência KL ( ou seja , D(fnϕ)0 ) é mais forte?

NB: Eu fiz essa pergunta há algum tempo em math.stackexchange, onde não obtive resposta.

Ashok
fonte
Forneça um link para a pergunta math.SE duplicada.
cardeal
6
Sua afirmação parece implicitamente assumir a existência de uma densidade (com relação à medida de Lebesgue). Você pode estar interessado neste artigo curto e agradável : AR Barron (1986), Entropy e o Teorema do Limite Central, Ann. Probab. 14, n. 1, 336-342. ( acesso aberto ).
cardeal
2
Eu já tinha visto aquele jornal. Ele deu uma motivação na perspectiva teórica da informação no segundo parágrafo da página 1. Não estava muito claro para mim naquele momento. Agora parece ok. Ainda assim, se alguém puder explicar claramente o seguinte e postar como resposta, seria ótimo. "Da teoria da informação, a entropia relativa é o limite superior mínimo à redundância (comprimento médio da descrição em excesso) do código Shannon com base na distribuição normal ao descrever quantizações de amostras de ." Eu apaguei essa pergunta em math.SE pois não atraiu ninguém láDnfn
Ashok
@ cardinal: tks para o bom papel.
Zen

Respostas:

5

Uma coisa que é ótima com esse teorema é que ele sugere teoremas de limite em algumas situações em que o teorema do limite central usual não se aplica. Por exemplo, em situações em que a distribuição máxima de entropia é alguma distribuição não normal, como para distribuições no círculo, sugere convergência para uma distribuição uniforme.

kjetil b halvorsen
fonte
Eu não entendo Como já mencionei, convergência na divergência KL implica convergência na distribuição, sabe? Portanto, onde quer que a CLT teórica da informação se aplique, a CLT usual também se aplica. Além disso, a CLT teórica da informação também assume variação finita. Ou eu estou esquecendo de alguma coisa?
Ashok
2
O que eu quis dizer é que o método de entropia sugere qual poderia ser o limite em situações em que o limite não é uma distribuição normal. O limite é então uma distribuição que maximiza a entropia.
b Kjetil HALVORSEN
3

Depois de olhar em volta, não consegui encontrar nenhum exemplo de convergência na distribuição sem convergência na entropia relativa; portanto, é difícil medir a "grandeza" desse resultado.

Para mim, parece que esse resultado simplesmente descreve a entropia relativa dos produtos de convolução. Ele é frequentemente visto como uma estrutura alternativa de interpretação e prova do Teorema do Limite Central, e não tenho certeza de que tenha uma implicação direta na teoria da probabilidade (mesmo que na teoria da informação).

De Teoria da informação e Teorema do limite central (página 19).

A Segunda Lei da Termodinâmica afirma que a entropia termodinâmica sempre aumenta com o tempo, implicando algum tipo de convergência para o estado de Gibbs. Conservação de energia significa que permanece constante durante a evolução do tempo, para que possamos dizer desde o início qual o estado de Gibbs que será o limite. Consideraremos o Teorema do Limite Central da mesma maneira, mostrando que a entropia teórica da informação aumenta ao máximo enquanto tomamos convoluções, implicando convergência para o gaussiano. Normalizar apropriadamente significa que a variação permanece constante durante as convoluções, para que possamos dizer desde o início qual gaussiano será o limite.E

gui11aume
fonte
2
Existem muitos exemplos de convergência na distribuição sem convergência na entropia relativa - sempre que o tem uma distribuição discreta e o CLT se aplica. Xi
MarkMeckes
1

D(fnϕ)0 garante que não haja "distância" entre a distribuição da soma das variáveis ​​aleatórias e a densidade gaussiana como apenas por causa da definição de divergência de KL, por isso é a prova em si. Talvez eu tenha entendido mal sua pergunta.n

Sobre o segundo ponto que você indicou, ele respondeu em seu parágrafo.

outro usuário
fonte
11
O CLT normal (Lindberg) afirma que a média da amostra converge na distribuição para um VR normal. Isso significa que o CDF converge no sentido horário para . Há uma diferença teórica de medida sutil entre isso e o resultado do OP que não se reflete em sua resposta aqui. Φ
Adamo