Derivação de negentropia. Ficar preso

13

Portanto, essa questão está um pouco envolvida, mas eu tentei meticulosamente torná-la a mais direta possível.

Objetivo: Para encurtar a história, existe uma derivação da negentropia que não envolve cumulantes de ordem superior, e estou tentando entender como ela foi derivada.

Antecedentes: (eu entendo tudo isso)

Estou estudando o livro 'Independent Component Analysis' , encontrado aqui. (Esta questão é da seção 5.6, caso você tenha o livro - 'Aproximação de entropia por funções não polinomiais').

Temos x , que é uma variável aleatória e cuja negentropia queremos estimar, a partir de algumas observações que temos. O PDF de x é dado por px(ζ) . Negentropia é simplesmente a diferença entre a entropia diferencial de uma variável aleatória gaussiana padronizada e a entropia diferencial de x . A entropia diferencial aqui é dada por H , de modo que:

H(x)=px(ζ)log(px(ζ))dζ

e assim, a negentropia é dada por

J(x)=H(v)H(x)

onde é um rv gaussiano padronizado, com PDF fornecido por ϕ ( ζ ) .vϕ(ζ)

Agora, como parte desse novo método, meu livro derivou uma estimativa do PDF de , dada por:x

px(ζ)=ϕ(ζ)[1+iciFi(ζ)]

(Onde . A propósito, i é não uma potência, mas em vez disso um índice).ci=E{Fi(x)}i

Por enquanto, eu 'aceito' essa nova fórmula em PDF e perguntarei sobre ela outro dia. Este não é o meu problema principal. O que ele faz agora, porém, é conectar esta versão do PDF de volta à equação negentropy e terminar com:x

J(x)12iE{Fi(x)}2

Lembre-se de que o sigma (aqui e no resto do post) apenas circula o índice . Por exemplo, se tivéssemos apenas duas funções, o sinal retornaria para i = 2 e i = 2 . Claro, eu deveria falar sobre as funções que ele está usando. Então, aparentemente, essas funções F i são definidos como assim:ii=2i=2Fi

As funções não são funções polinomiais neste caso. (Supomos que o rv x seja zero médio e variância unitária). Agora, vamos fazer algumas restrições e dar propriedades dessas funções:Fix

Fn+1(ζ)=ζ,cn+1=0

Fn+2(ζ)=ζ2,cn+1=1

Para cálculos Simplifique, vamos fazer outra, suposição puramente técnica: As funções , forme um sistema ortonormal, como tal:Fi,i=1,...n

ϕ(ζ)Fi(ζ)Fj(ζ)dζ={1,if i=j0,if ij

e

ϕ(ζ)Fi(ζ)ζkd(ζ)=0,for k=0,1,2

Quase lá! OK, então tudo isso era o pano de fundo, e agora a pergunta. A tarefa é, então, simplesmente colocar este novo PDF na fórmula de entropia diferencial, . Se eu entender isso, vou entender o resto. Agora, o livro fornece a derivação (e eu concordo com isso), mas fico preso no final, porque não sei / vejo como está sendo cancelado. Além disso, não sei como interpretar a notação pequena da expansão de Taylor.H(x)

Este é o resultado:

Usando a expansão de Taylor , paraH(x)obtemos:(1+ϵ)log(1+ϵ)=ϵ+ϵ22+o(ϵ2)H(x)

H(x)=ϕ(ζ)(1+ciFi(ζ))(log(1+ciFi(ζ)+log(ζ))d(ζ)=ϕ(ζ)log(ζ)ϕ(ζ)ciFi(ζ)log(ϕ(ζ))ϕ(ζ)[ciFi(ζ)+12(ciFi(ζ))2+o((ciFi(ζ))2)]

e entao

A questão: (eu não entendo isso)

H(x)=H(v)0012ci2+o((ci)2

Então, meu problema: exceto o , não entendo como ele conseguiu os 4 termos finais na última equação. (ou seja, os 0, os 0 e os 2 últimos termos). Eu entendo tudo antes disso. Ele diz que explorou as relações de ortogonalidade dadas nas propriedades acima, mas não vejo como. (Eu também não entendo a notação small-o aqui, no sentido de como ela é usada?)H(v)

OBRIGADO!!!!

EDITAR:

Fui em frente e adicionei as imagens do livro que estou lendo, que praticamente diz o que disse acima, mas apenas no caso de alguém precisar de um contexto adicional.

insira a descrição da imagem aqui insira a descrição da imagem aqui insira a descrição da imagem aqui

ci2

Spacey
fonte
1
logϕ(x)
@ cardinal Ok, corrigido o erro de digitação, obrigado. Dito isto, não estou claro como ele está realizando o cancelamento. Eu adicionei as imagens reais a partir do próprio livro.
Spacey
2
Honestamente, também não tenho idéia de como ou por que isso foi migrado do site de matemática. De qualquer forma, estou feliz por tê-lo aqui, onde é igualmente em casa. Você se esforçou bastante nessa questão. :-)
cardeal
2
@ cardinal Me agrada muito ouvir você dizer isso. :-) Sim, espero que esse investimento em auto-estudo valha a pena algum dia. ;-)
Spacey
2
@Mohammad, sim! A ACI também é um tópico muito interessante :-).
Néstor

Respostas:

9

ci

ci=p0(ξ)Gi(ξ)dξ.
ξξci

>> Para obter os termos zero:

φ(ξ)=exp(ξ2/2)/2πlogφ(ξ)

logφ(ξ)=ξ2/2log2π.
ciφ(ξ)Gi(ξ)logφ(ξ)=12ciφ(ξ)Gi(ξ)ξ2log2πciφ(ξ)Gi(ξ),   (1)

φ(ξ)FEu(ξ)ξk0 0k=0 0,1,2(1)k=2k=0 0

cEu2

φ(ξ)(Eu=1ncEuGEu(ξ))2dξ.
φ(ξ)k1+k2+...kn=22!k1!k2!...kn!1tn(ctGt(ξ))ktdξ.
φ(ξ)GEu(ξ)Gj(ξ)dξ
Euji=j
φ(ξ)(ciGi(ξ))2dξ=ci2.

o(whatever)

whatevero(whatever)

PS: Este é um ótimo livro, a propósito. Os trabalhos dos autores sobre o assunto também são muito bons e devem ser lidos se você estiver tentando entender e implementar a ACI.

Néstor
fonte
1
(+1) Boa resposta. Se as somas são infinitas, temos que ter mais cuidado ao trocá-las pela integral. Se eles são finitos (como o OP sugere, mas eu não olhei as imagens de perto), tudo é direto, como você mostrou. :-)
cardeal
Ah sim! Obrigado Nestor, mas e os dois últimos resultados, ou seja, o somatório com ocEu2e somatório com a parte da notação small-o?
Spacey
1
@ cardinal: Ah, sim! Eles são finitos (não sei por que os escrevi onde eram infinitos ...). Eu mudei isso na minha resposta.
Néstor
@ Mohammad, estou escrevendo nas minhas respostas suas outras duas perguntas ;-).
Néstor
1
@ Néstor, +1 a esta resposta, mas re: seu último comentário, acho que há uma distinção entre notação big-O e little-o .
Macro