Probabilidade gaussiana + qual anterior = marginal gaussiana?

8

Dada a probabilidade gaussiana de uma amostra como com sendo o espaço de parâmetro e , parametrizações arbitrárias do vetor médio e da matriz de covariância.y

p(y|θ)=N(y;μ(θ),Σ(θ))
Θμ(θ)Σ(θ)

É possível especificar uma densidade anterior e parametrização do vetor médio e a matriz de covariância modo que a probabilidade marginal é uma probabilidade gaussiana?p(θ)μ(θ)Σ(θ)

p(y)=θΘN(y;μ(θ),Σ(θ))p(θ)dθ

Eu acho que excluindo a solução trivial que a covariância é conhecida, ou seja, , onde é uma matriz de covariância fixa arbitrária, isso não é possível.Σ(θ)=ΣΣ

Para o caso especial e , que é é unidimensional , onde denota a densidade uniforme que eu posso mostrar: μ(σ2)=μΣ(σ2)=σ2yp(σ2)=U(σ2;a,b)U(σ2;a,b)

p(y)=0N(y;μ,σ2)U(σ2;a,b)dσ2=1baabN(y;μ,σ2)not a Gaussian density

A resposta aceita contém uma prova formal ou informal ou sugestões para ela.

Julian Karls
fonte

Respostas:

2

Sua conjectura parece verdadeira: apenas uma variação constante pode levar a uma margem normal. Minha prova é limitada ao caso em que a expectativa é conhecida e, portanto, pode ser assumida como zero. Para o caso geral, argumentos mais sofisticados da análise funcional parecem ser necessários.μ

Observe que a questão é realmente sobre a mistura contínua de normais , bem como sobre Bayes. A afirmação provou aqui que uma mistura (contínua) de escala de normais pode ser normal apenas para uma mistura trivial.

Primeiro, considere o caso de um normal unidimensional com média conhecida e parâmetro de precisão . Sem perda de generalidade, podemos assumir que o parâmetro é a precisão . Se a distribuição marginal de for normal, então é uma densidade normal até uma constante multiplicativa. Esta densidade sendo uma função par de deve assumir a forma para alguns e alguma constante . Como isso vale para qualquerω : = 1 / Σ > 0 θ ω y exp { - y 2 ω / 2 }μ=0ω:=1/Σ>0θωyy c exp { - y 2 ω 0 / 2 } ω 0 > 0 c > 0 y s : = y 2 0 exp { - s ωexp{y2ω/2}ω1/2p(ω)dωycexp{y2ω0/2}ω0>0c>0yobtemos com para todos os , o que mostra que a medida finita com a função de densidade é proporcional à massa de Dirac em porque essas duas medidas têm a mesma transformada de Laplace, até uma constante multiplicativa. Portanto, é quase certamente (as) igual a . s:=y2 s 0 ω ω 1 / 2 p ( ω ) ω 0 ω ω 0

0exp{sω/2}ω1/2p(ω)dω=cexp{sω0/2}
s0ωω1/2p(ω)ω0ωω0

Essa prova se estende ao normal dimensional com zero médio e matriz de precisão . A margem então grava como que a integral está no conjunto de simétrico definido positivo matrizes. Se essa integral for idêntica a , usando para um escalar Ω : = Σ - 1 ct exp { - y ΩdΩ:=Σ1P d x d c de exp { - yΩ 0 y / 2 } y : = exp{yΩy/2}|Ω|1/2p(Ω)dΩPd×dcexp{yΩ0y/2}s 0 u u Ωy:=sus0 e um vetor arbitráriou , achamos acima que deve ser igual a , que mostra que é igual a . A prova funciona mesmo que a medida escrita convenientemente como possuindo densidade concentre em um subconjunto de com Lebesgue, medida zero, porque o argumento de transformação de Laplace ainda se aplica. Portanto, a prova funciona para uma parametrização geral da matriz de precisão (ou variância).uohms 0 u ohms ohms 0 | ohms | 1 / 2 p ( Ω ) PuΩuuΩ0uΩΩ0|Ω|1/2p(Ω)P

Yves
fonte
Ainda não compreendi sua prova completamente. Em comparação com a resposta de Jacky1, parece relativamente complexo. O que você acha da prova dele?
Julian Karls
Bem, eu não conseguia entender como o prior pode depender de na resposta de Jacky. No entanto, a declaração dele, como eu entendo, está errada - eu cometi o mesmo erro primeiro :) De fato, não é necessariamente constante e, se a variação for constante, ainda pode ser normal, o que é facilmente verificado ao se completar um quadrado. Agora tenho uma prova do caso anterior independente (unidimensional por simplicidade) e espero escrevê-lo em breve, talvez como uma nova resposta. A variação deve ser constante e deve ser normal (possivelmente degenerada). μ μ Σ μyμμΣμ
Yves
Você poderia expandir o seu raciocínio no parágrafo começando com "Desde que isso vale para qualquer e terminando com" (como) igual "Talvez com apontadores para os teoremas que você está usando?ω 0yω0
Julian Karls
1

Suponha que e sejam a priori independentes e que tenha uma margem normal com média e variação . Vou provar que a variação deve ser constante e a média deve ter um anterior normal (possivelmente degenerado).Σ y μ 0 Σ 0 Σ μμΣyμ0Σ0Σμ

Vou me ater ao caso unidimensional para simplificar, usando a função característica (cf) de , ou seja, . Sabemos que } e uma fórmula semelhante vale para a distribuição de condicional em e , o que é normal por suposição. Assim, para qualquer verdadeira e reorganizando a integral, devemos ter φ y ( t ) : = E [ e y i t ] φ y ( t ) = exp { μ 0 i t - Σ 0 t 2 / 2 y μ Σ t E [ e y i t ] = E [ e y eu tyϕy(t):=E[eyit]ϕy(t)=exp{μ0itΣ0t2/2yμΣt exp { μ 0 i t - Σ 0 t 2 / 2 } = [ exp { μ i t } p ( μ )

E[eyit]=E[eyit|μ,Σ]p(μ)p(Σ)dμdΣ=exp{μitΣt2/2}p(μ)p(Σ)dμdΣ,
exp{μ0itΣ0t2/2}=[exp{μit}p(μ)dμ][exp{Σt2/2}p(Σ)dΣ].
As premissas necessárias para esse rearranjo são facilmente verificadas.

A primeira integral do lado direito, digamos , é o cf de . Observe que, como é considerado real, vemos que a distribuição de é simétrica wrt e, portanto, , como poderia ter sido antecipado.μ φ 1 ( t ) e - μ 0 i t μ μ 0 E [ μ ] = μ 0ϕ1(t)μϕ1(t)eμ0itμμ0E[μ]=μ0

Agora acontece que a segunda integral do lado direito, digamos , também é uma cf. Para ver isso, devemos verificar se , que é contínuo em e também que a função é positiva definida (pd). O primeiro requisito é óbvio, o segundo é provado pela convergência dominada. Agora vá ao requisito pd: se a distribuição anterior escrita como for uma massa de Dirac, será pd porque será o cf de uma distribuição normal. Se o anterior é uma mistura discreta de massas Dirac, isso também é verdade, poisφ 2 ( 0 ) = 1 φ 2 t = 0 φ 2 p ( Σ ) d Σ φ 2 φ 2 φ 2 φ doisϕ2(t)ϕ2(0)=1ϕ2t=0ϕ2p(Σ)dΣϕ2ϕ2ϕ2então é o cf de uma mistura de normais. Por um argumento de continuidade, vemos que é pdϕ2

Agora vamos usar o poderoso teorema de Lévy-Cramér, que diz que ambas as funções para , devem assumir a forma com real e . Portanto, deve ser normal (possivelmente degenerado) com média . Por álgebra simples, temos que vale para qualquer real . Como qualquer real não negativo escreve como , vemos que a transformada de Laplace do prior de jϕj2 exp { um j i t - b j t 2 / 2 } um j b j0 μ um 1 = μ 0 exp { - ( Σ 0 - b 1 ) t 2 / 2 } = 0 exp { - Σ t 2 / 2 } pj=12exp{ajitbjt2/2}ajbj0μa1=μ0t t

exp{(Σ0b1)t2/2}=0exp{Σt2/2}p(Σ)dΣ
tΣ Σ 0 - b 1t2/2Σdeve ser igual ao da massa de Dirac em e terminamos.Σ0b1
Yves
fonte
Obrigado pelo seu esforço. Levarei algum tempo para entender isso.
Julian Karls 02/03
0

Eu tenho uma proposta de prova para você, mas você precisa verificar.

Suponha que a probabilidade marginal seja gaussiana:

p(y)=N(y,m,Γ)

então a densidade anterior pode ser definida por

p(θ)=N(y,μ(θ),Σ(θ))1N(y,m,Γ)f(θ)

onde controlos e para . ( é ).fθΘf(θ)dθ=1f(θ)0θΘf(θ)p(θ|y)

Para ser uma densidade, a integral da densidade anterior em deve ser igual a 1. Em outras palavras,p(θ)Θ

θΘN(y,μ(θ),Σ(θ))1N(y,m,Γ)f(θ)dθ=1 .

Isso leva a

θΘN(y,μ(θ),Σ(θ))1N(y,m,Γ)f(θ)dθ=θΘf(θ)dθ

Sendo verdadeira esta igualdade se e somente se e .μ(θ)=mΣ(θ)=Γ

Jacky1
fonte
2
Eu gosto da ideia da prova. Tenho certeza de que todas as etapas, exceto a última, são válidas. Certamente a integral de duas funções é a mesma se as funções forem as mesmas, mas essa não é uma condição necessária. Você está usando um teorema diferente lá?
22416 Julian Karls
Se você substituir pela sua definição via bayes em sua primeira fórmula para , ele se tornará . Certamente, nada se segue dessa desigualdade. p ( θ ) p ( θ ) = p ( θ )p(θ|y)p(θ)p(θ)=p(θ)
Julian Karls